في هذا العمل، نقدم نهجنا على مهمة تصنيف التعليقات السامة (الفرعية 1) من المهمة المشتركة لجيرفال 2021.لهذه المهمة الثنائية، نقترح ثلاث نماذج: نموذج محول بيرت ألماني؛Perceptron متعدد الطبقات، التي تم تدريبها لأول مرة بالتوازي على الإدخال النصي و 14 ميزات لغوية إضافية ثم تم تسليمها في طبقة إضافية؛ومثيرة الطبقات متعدد الطبقات مع كل من أنواع الميزات كمدخلات.عززنا النموذج المحول المدرب مسبقا من خلال إعادة تدريبه مع أكثر من مليون تغريدة وصقله على مجموعة بيانات ألمانية إضافية من مهام مماثلة.تم اتخاذ أنظمة بيرت الألمانية النهائية التي تم ضبطها بشكل نهائي كميزات مدخلات نصية لشبكاتنا العصبية.كانت أفضل النماذج الخاصة بنا في بيانات التحقق من الصحة كانت شبكات عصبية، لكن بيرت الألمانية المعززة المكتسبة مع درجة F1 = 0.5895 تنبؤ أعلى في بيانات الاختبار.
In this work, we present our approaches on the toxic comment classification task (subtask 1) of the GermEval 2021 Shared Task. For this binary task, we propose three models: a German BERT transformer model; a multilayer perceptron, which was first trained in parallel on textual input and 14 additional linguistic features and then concatenated in an additional layer; and a multilayer perceptron with both feature types as input. We enhanced our pre-trained transformer model by re-training it with over 1 million tweets and fine-tuned it on two additional German datasets of similar tasks. The embeddings of the final fine-tuned German BERT were taken as the textual input features for our neural networks. Our best models on the validation data were both neural networks, however our enhanced German BERT gained with a F1-score = 0.5895 a higher prediction on the test data.
المراجع المستخدمة
https://aclanthology.org/
نبلغ عن تقديمنا إلى المهمة 1 من تحدي جيرفال 2021 - تصنيف التعليق السام.نحقق في طرق مختلفة لتعزيز البيانات التدريبية النادرة لتحسين الأداء النموذجي خارج الرف على مهمة تصنيف سامة للتعليق.للمساعدة في معالجة قيود مجموعة بيانات صغيرة، نستخدم البيانات التي
في هذه الورقة، نحقق في فعالية استخدام المدينات السياقية من بيرت متعددة اللغات، بيرت الألمانية في تحديد تعليقات المطالبة بالحقائق باللغة الألمانية على وسائل التواصل الاجتماعي.بالإضافة إلى ذلك، ندرس تأثير صياغة مشكلة التصنيف كأداة تعليمية متعددة المهام
في هذه الورقة، نبلغ عن نهجنا لمعالجة المهمة المشتركة ل Germeval 2021 بشأن تحديد تعليقات سمية ومشاركة وحقائق اللغة الألمانية. لقد قدمنا ثلاثة أشواط لكل فرقة فرعية بناء على مجموعات من ثلاث نماذج تستخدم من حيث أن تضمينات سياقية من نماذج اللغة المدربة
أدى توافر تمثيلات اللغة التي تعلمتها نماذج الشبكة العصبية العصبية الكبيرة (مثل Bert and Electra) إلى تحسينات في العديد من مهام معالجة اللغة الطبيعية المصب في السنوات الأخيرة.تختلف النماذج المحددة عادة في الأهداف المحددة، والبنية، ومجموعات البيانات ال
تتناول هذه الورقة تحديد تعليقات سامة ومشاركة وتحقيق الحقائق على وسائل التواصل الاجتماعي.استخدمنا مجموعة البيانات المتاحة من قبل منظمي المهمة المشتركة Germeval2021 التي تحتوي على أكثر من 3000 تعليقات Facebook المزروعة يدويا باللغة الألمانية.بالنظر إلى