ترغب بنشر مسار تعليمي؟ اضغط هنا

التكيف الزمني بيرت والأداء في تصنيف المستند المصب: رؤى من وسائل التواصل الاجتماعي

Temporal Adaptation of BERT and Performance on Downstream Document Classification: Insights from Social Media

357   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يستخدم استخدام اللغة بين المجالات وحتى داخل المجال، يتغير استخدام اللغة بمرور الوقت. بالنسبة لنماذج اللغة المدربة مسبقا مثل Bert، فقد ثبت أن تكييف المجال من خلال استمرار التدريب المستمر لتحسين الأداء في مهام Towstream داخل المجال. في هذه المقالة، يمكننا التحقيق فيما إذا كان التكيف الزمني يمكن أن يجلب فوائد إضافية. لهذا الغرض، نقدم كذبة من وسائل التواصل الاجتماعي تعليقات عينات أكثر من ثلاث سنوات. أنه يحتوي على بيانات غير مسؤولة عن التكيف والتقييم على مهمة نمذجة لغة ملثم في المنبع بالإضافة إلى البيانات المسمى للضبط الدقيق والتقييم في مهمة تصنيف المستندات المصب. نجد أن هذه المهام في كل من المهام: التكيف الزمني يحسن أداء مهام المهام المصب والصقل الزمني الصخري. تؤدي النماذج الزمنية الخاصة عموما بشكل عام في الماضي عن مجموعات الاختبار المستقبلية، مما يطابق الأدلة على الاستخدام الدائر للكلمات الموضعية. ومع ذلك، لا يحسن تكييف Bert to Time & Domain الأداء على المهمة المصب على التكيف فقط إلى المجال. يوضح تحليل المستوى الرمز المميز أن التكيف الزمني يلتقط التغييرات التي يحركها الأحداث في استخدام اللغة في مهمة المصب، ولكن ليس هذه التغييرات ذات الصلة بالفعل بأداء المهام. بناء على النتائج التي توصلنا إليها، نناقش متى قد يكون التكيف الزمني أكثر فعالية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

بالنظر إلى لوائح التناقض الاجتماعي الحالية في جميع أنحاء العالم، أصبحت وسائل التواصل الاجتماعي الوضع الأساسي للتواصل لمعظم الناس. وقد عزل هذا الملايين الذين يعانون من الأمراض العقلية الذين لا يستطيعون الحصول على المساعدة شخصيا. لقد تحولوا بشكل متزايد إلى المنصات عبر الإنترنت للتعبير عن أنفسهم والبحث عن إرشادات في التعامل مع أمراضهم. مع مراعاة ذلك، نقترح حلا لتصنيف وظائف المرض العقلي على وسائل التواصل الاجتماعي مما يتيح للمستخدمين طلب المساعدة المناسبة. في هذا العمل، صنف خمسة أنواع بارزة من الأمراض العقلية - الاكتئاب والقلق والاضطراب الثنائي القطبية و ADHD و PTSD عن طريق تحليل بيانات المستخدم غير منظم على Reddit. بالإضافة إلى ذلك، نشارك بيانات DataSet1 جديدة عالية الجودة لدفع البحث في هذا الموضوع. تتكون DataSet من عنوان ونصوص نشرها من 17159 وظيفة و 13 Subreddits كل واحد مرتبط بأحد الأمراض العقلية الخمس المذكورة أعلاه أو بدون فئة تشير إلى عدم وجود أي مرض عقلي. يتم تدريب النموذج الخاص بنا على بيانات Reddit ولكنه قابل للتوسيع بسهولة لمنصات وسائل التواصل الاجتماعي الأخرى وكذلك أظهرت في نتائجنا. نعتقد أن عملنا هو أول نموذج متعدد الطبقات يستخدم بنية تحويل محولات مثل روبرتا لتحليل عواطف الناس و علم النفس. نحن نوضح أيضا كيف نشدد اختبار نموذجنا باستخدام الاختبار السلوكي. تتوفر DataSet علنا ​​علنا ​​ونشجع الباحثين على الاستفادة من ذلك لتحقيق البحث في هذه الساحة. نأمل أن يساهم هذا العمل في نظام الصحة العامة بأتمتة بعض عمليات الكشف وتنبيه السلطات المختصة عن المستخدمين الذين يحتاجون إلى مساعدة فورية.
مجردة الكثير من العمل السابق الذي تميز تباين اللغة عبر الإنترنت، ركزت مجموعات الاجتماعية على الإنترنت على أنواع الكلمات التي تستخدمها هذه المجموعات.نحن نقدم هذا النوع من الدراسة من خلال توظيف بيرت لتوصيف الاختلاف في حواس الكلمات أيضا، وتحليل شهرين من التعليقات الإنجليزية في 474 مجتمعات Reddit.يتم استخدام خصوصية مجموعات الشعور المختلفة للمجتمع، جنبا إلى جنب مع خصوصية أنواع الكلمات الفريدة للمجتمع، لتحديد الحالات التي تنحرف فيها لغة مجموعة اجتماعية عن القاعدة.نحن نقوم بالتحقق من صحة مقاييسنا باستخدام المعلقات التي تم إنشاؤها من قبل المستخدم وارسم النظريات الاجتماعية لتوصيل تباين اللغة بالاتجاهات في سلوك المجتمع.نجد أن المجتمعات ذات اللغة المميزة للغاية هي متوسطة الحجم، وتفاعل المستخدمين المواليين والمخروطين للغاية في الشبكات الكثيفة.
تصبح الصحة العقلية أكثر اهتماما مؤخرا مؤخرا، والاكتئاب كونه مرض شائع جدا في الوقت الحاضر، ولكن أيضا اضطرابات أخرى مثل القلق أو الاضطرابات القهرية الهوس أو اضطرابات التغذية أو اضطرابات نقص الانتباه / اضطرابات نقص الانتباه / فرط النشاط. توفر كمية كبيرة من البيانات من وسائل التواصل الاجتماعي والسلف الحديث لنماذج التعلم العميق وسيلة قيمة للكشف عن الاضطرابات النفسية تلقائيا من نص عادي. في هذه المقالة، نقوم بتجربة أساليب حديثة في مجموعة بيانات الصحة العقلية SMHD من Reddit (كوهان وآخرون، 2018). مساهمتنا ثلاثة أضعاف: استخدام مجموعة بيانات تتكون من المزيد من الأمراض أكثر من معظم الدراسات، مع التركيز على النص العام بدلا من مجموعات دعم الصحة العقلية والتصنيف من قبل الوظائف بدلا من الأفراد أو المجموعات. بالنسبة للتصنيف التلقائي للأمراض، فإننا نوظف ثلاث نماذج تعليمية عميقة: بيرت روبرتا و XLNet. نحن مضاعفة خط الأساس الذي أنشأه كوهان وآخرون. (2018)، على عينة فقط من مجموعة البيانات الخاصة بهم. نحن نحسن النتائج التي حصلت عليها جيانغ وآخرون. (2020) على تصنيف ما بعد المستوى. إن الدقة التي حصلت عليها مصنف اضطراب الأكل هو أعلى نظرا للوجود الحامل للمناقشات المتعلقة بالسعرات الحرارية والوجبات الغذائية والوصفات وما إلى ذلك، في حين أن الاكتئاب كان لديه أدنى درجة F1، ربما لأن الاكتئاب أكثر صعوبة في تحديد الأفعال اللغوية.
تضع الكشف عن الشائعات على وسائل التواصل الاجتماعي نماذج لغة مدربة مسبقا (LMS)، مثل Bert، والميزات المساعدة، مثل التعليقات، قيد الاستخدام. ومع ذلك، من ناحية، فإن مجموعات بيانات الكشف عن الشائعات في الشركات الصينية مع تعليقات نادرة؛ من ناحية أخرى، فإن التفاعل المكثف من الاهتمام على النماذج القائمة على المحولات مثل بيرت قد يعيق تحسين الأداء. لتخفيف هذه المشاكل، نبني مجموعة بيانات جديدة من المدونات الصغيرة الصينية تسمى Weibo20 من خلال جمع الوظائف والتعليقات المرتبطة بها من سينا ​​ويبو واقترح فرقة جديدة تسمى Stanker (Bracking Network بناء على الانتباه ملثمين). تتبنى Stanker نماذج برت ملثمين من اهتمامات اثنين من المحبوسين على مستوى تشفير قاعدة. على عكس الخطابة الأصلية، يتخذ نموذج LGAM-Bert الجديد الخاص بنا تعليقات كملفات مساعدة مهمة ويعتد على الانتباه بين الوظائف والتعليقات على الطبقات المنخفضة. أظهرت التجارب على Weibo20 وثلاث مجموعات بيانات وسائل التواصل الاجتماعي الحالية أن الستائر تفوقت على جميع النماذج المقارنة، وخاصة ضرب الدولة القديمة في مجموعة بيانات Weibo.
يفترض العمل الحالي على تصنيف نطق الكراهية الآلي أن DataSet ثابتة ويتم تعريف الفصول الدراسية مسبقا.ومع ذلك، فإن مقدار البيانات في وسائل التواصل الاجتماعي يزيد كل يوم، وتتغير الموضوعات الساخنة بسرعة، مما يتطلب من المصنفين أن تكون قادرة على التكيف باستم رار مع البيانات الجديدة دون أن ننسى المعرفة المستفادة مسبقا.هذه القدرة، المشار إليها باسم التعلم مدى الحياة، أمر حاسم لتطبيق الكلمة الحقيقية من مصنف الكلاب الكراهية في وسائل التواصل الاجتماعي.في هذا العمل، نقترح التعلم مدى الحياة لتصنيف الكلام الكراهية على وسائل التواصل الاجتماعي.لتخفيف النسيان الكارثي، نقترح استخدام تعليم التمثيل التغيرات (VRL) جنبا إلى جنب مع وحدة الذاكرة المستندة إلى LB-Soinn (توازن الحركة النمو الذاتي التزايدي التزايدي).تجريبيا، نظهر أن الجمع بين التعلم التمثيل التغيرات ووحدة الذاكرة LB-Soinn يحقق أداء أفضل من تقنيات التعلم مدى الحياة المستخدمة بشكل شائع.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا