أدى توافر تمثيلات اللغة التي تعلمتها نماذج الشبكة العصبية العصبية الكبيرة (مثل Bert and Electra) إلى تحسينات في العديد من مهام معالجة اللغة الطبيعية المصب في السنوات الأخيرة.تختلف النماذج المحددة عادة في الأهداف المحددة، والبنية، ومجموعات البيانات التي تم تدريبها عليها والتي يمكن أن تؤثر على أداء المصب.في هذه المساهمة، نحن نضرب نماذج بيرت الألمانية والألمانية الكترا لتحديد السامة (الفرعية 1)، وجذابة (SubTask 2)، وتعليقات تدعي الحقائق (SubTask 3) في بيانات Facebook المقدمة من مسابقة Germeval 2021.أنشأنا مجموعة من هذه النماذج والتحقيق في ما إذا كان أداء التصنيف يعتمد على عدد أعضاء الفرقة وتكوينهم.على بيانات خارج العينة، حققت أفضل مجموعة لدينا درجة ماكرو F1 من 0.73 (لجميع المهام الفرعية)، وعشرات F1 من 0.72، 0.70، و 0.76 للحصول على المهام الفرعية 1، 2، و 3، على التوالي.
The availability of language representations learned by large pretrained neural network models (such as BERT and ELECTRA) has led to improvements in many downstream Natural Language Processing tasks in recent years. Pretrained models usually differ in pretraining objectives, architectures, and datasets they are trained on which can affect downstream performance. In this contribution, we fine-tuned German BERT and German ELECTRA models to identify toxic (subtask 1), engaging (subtask 2), and fact-claiming comments (subtask 3) in Facebook data provided by the GermEval 2021 competition. We created ensembles of these models and investigated whether and how classification performance depends on the number of ensemble members and their composition. On out-of-sample data, our best ensemble achieved a macro-F1 score of 0.73 (for all subtasks), and F1 scores of 0.72, 0.70, and 0.76 for subtasks 1, 2, and 3, respectively.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نبلغ عن نهجنا لمعالجة المهمة المشتركة ل Germeval 2021 بشأن تحديد تعليقات سمية ومشاركة وحقائق اللغة الألمانية. لقد قدمنا ثلاثة أشواط لكل فرقة فرعية بناء على مجموعات من ثلاث نماذج تستخدم من حيث أن تضمينات سياقية من نماذج اللغة المدربة
نقدم Germeval 2021 المهمة المشتركة بشأن تحديد تعليقات السامة والإخراجية والحقائق. تضم هذه المهمة المشتركة ثلاث مجموعات فرعية تصنيف ثنائية بهدف تحديد: تعليقات سامة، وإشراك التعليقات، والتعليقات التي تشمل مؤشرات على الحاجة إلى فحص الحقائق، يشار إليها ه
تتناول هذه الورقة تحديد تعليقات سامة ومشاركة وتحقيق الحقائق على وسائل التواصل الاجتماعي.استخدمنا مجموعة البيانات المتاحة من قبل منظمي المهمة المشتركة Germeval2021 التي تحتوي على أكثر من 3000 تعليقات Facebook المزروعة يدويا باللغة الألمانية.بالنظر إلى
في هذه الورقة، نقدم مساهمة UPAPPLIEDCL في مهمة جيرفال 2021 المشتركة.على وجه الخصوص، شاركنا في SubTasks 2 (تصنيف التعليق التجاري) و 3 (تصنيف التعليق الذي يدعي الحقائق).على الرغم من أن النتائج المقبولة يمكن الحصول عليها باستخدام أجهزة UNIGRAMS أو الميز
في هذه الورقة، نحقق في فعالية استخدام المدينات السياقية من بيرت متعددة اللغات، بيرت الألمانية في تحديد تعليقات المطالبة بالحقائق باللغة الألمانية على وسائل التواصل الاجتماعي.بالإضافة إلى ذلك، ندرس تأثير صياغة مشكلة التصنيف كأداة تعليمية متعددة المهام