يستخدم استخدام اللغة بين المجالات وحتى داخل المجال، يتغير استخدام اللغة بمرور الوقت. بالنسبة لنماذج اللغة المدربة مسبقا مثل Bert، فقد ثبت أن تكييف المجال من خلال استمرار التدريب المستمر لتحسين الأداء في مهام Towstream داخل المجال. في هذه المقالة، يمكننا التحقيق فيما إذا كان التكيف الزمني يمكن أن يجلب فوائد إضافية. لهذا الغرض، نقدم كذبة من وسائل التواصل الاجتماعي تعليقات عينات أكثر من ثلاث سنوات. أنه يحتوي على بيانات غير مسؤولة عن التكيف والتقييم على مهمة نمذجة لغة ملثم في المنبع بالإضافة إلى البيانات المسمى للضبط الدقيق والتقييم في مهمة تصنيف المستندات المصب. نجد أن هذه المهام في كل من المهام: التكيف الزمني يحسن أداء مهام المهام المصب والصقل الزمني الصخري. تؤدي النماذج الزمنية الخاصة عموما بشكل عام في الماضي عن مجموعات الاختبار المستقبلية، مما يطابق الأدلة على الاستخدام الدائر للكلمات الموضعية. ومع ذلك، لا يحسن تكييف Bert to Time & Domain الأداء على المهمة المصب على التكيف فقط إلى المجال. يوضح تحليل المستوى الرمز المميز أن التكيف الزمني يلتقط التغييرات التي يحركها الأحداث في استخدام اللغة في مهمة المصب، ولكن ليس هذه التغييرات ذات الصلة بالفعل بأداء المهام. بناء على النتائج التي توصلنا إليها، نناقش متى قد يكون التكيف الزمني أكثر فعالية.
Language use differs between domains and even within a domain, language use changes over time. For pre-trained language models like BERT, domain adaptation through continued pre-training has been shown to improve performance on in-domain downstream tasks. In this article, we investigate whether temporal adaptation can bring additional benefits. For this purpose, we introduce a corpus of social media comments sampled over three years. It contains unlabelled data for adaptation and evaluation on an upstream masked language modelling task as well as labelled data for fine-tuning and evaluation on a downstream document classification task. We find that temporality matters for both tasks: temporal adaptation improves upstream and temporal fine-tuning downstream task performance. Time-specific models generally perform better on past than on future test sets, which matches evidence on the bursty usage of topical words. However, adapting BERT to time and domain does not improve performance on the downstream task over only adapting to domain. Token-level analysis shows that temporal adaptation captures event-driven changes in language use in the downstream task, but not those changes that are actually relevant to task performance. Based on our findings, we discuss when temporal adaptation may be more effective.
المراجع المستخدمة
https://aclanthology.org/
بالنظر إلى لوائح التناقض الاجتماعي الحالية في جميع أنحاء العالم، أصبحت وسائل التواصل الاجتماعي الوضع الأساسي للتواصل لمعظم الناس. وقد عزل هذا الملايين الذين يعانون من الأمراض العقلية الذين لا يستطيعون الحصول على المساعدة شخصيا. لقد تحولوا بشكل متزايد
مجردة الكثير من العمل السابق الذي تميز تباين اللغة عبر الإنترنت، ركزت مجموعات الاجتماعية على الإنترنت على أنواع الكلمات التي تستخدمها هذه المجموعات.نحن نقدم هذا النوع من الدراسة من خلال توظيف بيرت لتوصيف الاختلاف في حواس الكلمات أيضا، وتحليل شهرين من
تصبح الصحة العقلية أكثر اهتماما مؤخرا مؤخرا، والاكتئاب كونه مرض شائع جدا في الوقت الحاضر، ولكن أيضا اضطرابات أخرى مثل القلق أو الاضطرابات القهرية الهوس أو اضطرابات التغذية أو اضطرابات نقص الانتباه / اضطرابات نقص الانتباه / فرط النشاط. توفر كمية كبيرة
تضع الكشف عن الشائعات على وسائل التواصل الاجتماعي نماذج لغة مدربة مسبقا (LMS)، مثل Bert، والميزات المساعدة، مثل التعليقات، قيد الاستخدام. ومع ذلك، من ناحية، فإن مجموعات بيانات الكشف عن الشائعات في الشركات الصينية مع تعليقات نادرة؛ من ناحية أخرى، فإن
يفترض العمل الحالي على تصنيف نطق الكراهية الآلي أن DataSet ثابتة ويتم تعريف الفصول الدراسية مسبقا.ومع ذلك، فإن مقدار البيانات في وسائل التواصل الاجتماعي يزيد كل يوم، وتتغير الموضوعات الساخنة بسرعة، مما يتطلب من المصنفين أن تكون قادرة على التكيف باستم