ترغب بنشر مسار تعليمي؟ اضغط هنا

UR-IW-HNT في Germeval 2021: استراتيجية كفرية مع نماذج بيرت متعددة

ur-iw-hnt at GermEval 2021: An Ensembling Strategy with Multiple BERT Models

286   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة نهجنا (UR-IW-HNT) للمهمة المشتركة ل Germeval2021 لتحديد تعليقات السامة والمشاركة والحقائق المزعومة.قدمنا ثلاثة أشواط باستخدام استراتيجية كوئية من خلال التصويت بالأغلبية (الصعب) مع العديد من نماذج بيرت مختلفة من ثلاثة أنواع مختلفة: نماذج ألمانيا القائمة على Twitter، ومتعددة اللغات.تتفوق جميع نماذج الفرقة على النماذج الفردية، في حين أن Bertweet هو الفائز في جميع النماذج الفردية في كل فرعية.تؤدي النماذج المستندة إلى Twitter أفضل من نماذج Germanbert، وأداء النماذج متعددة اللغات سوءا ولكنها هامش صغير.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن نصف مشاركتنا في جميع المهام المشتركة بين Germeval 2021 بشأن تحديد تعليقات سمية ومشاركة وتحقيق الحقائق.نظامنا هو مجموعة من النماذج المدربة مسبقا من أحدث المعلومات المصنوعة من الميزات المصنعة بعناية.نظهر أن ميزة الهندسة وتكبير البيانات يمكن أن تكون مفيدة عندما تكون البيانات التدريبية متناثرة.نحن نحقق درجة F1 من 66.87 و 68.93 و 73.91 في التعليق السام والمشاركة في التعليق في التعليق التعليق.
في هذه الورقة، نبلغ عن نهجنا لمعالجة المهمة المشتركة ل Germeval 2021 بشأن تحديد تعليقات سمية ومشاركة وحقائق اللغة الألمانية. لقد قدمنا ​​ثلاثة أشواط لكل فرقة فرعية بناء على مجموعات من ثلاث نماذج تستخدم من حيث أن تضمينات سياقية من نماذج اللغة المدربة مسبقا باستخدام SVM والأصنف في الشبكة العصبية. نحن ندرج نماذج اللغة اللغوية واللغة - مثل اللغة المعزنة - سواء مع وبدون ضبط جيد. نلاحظ أنه بالنسبة للتشغيل الذي قمنا بإرسال نماذج SVM إلى البيانات التدريبية وتأثر ذلك على طريقة التجميع (التصويت بالأغلبية البسيطة) من الفرمشط. يسجل النموذج أداء أقل في مجموعة الاختبار من مجموعة التدريب. استكشاف مسألة التجاوز الكشف عنها أنه بسبب وجود خطأ في خط الأنابيب، لم يتم تدريب المدافع الذي قدمناه على المجموعة الكاملة ولكن فقط في مجموعة تدريبية صغيرة. لذلك في هذه الورقة، نضمن أيضا النتائج التي نحصل عليها عند تدريبها على مجموعة التدريب الكامل والتي تثبت قوة الفرمز.
في هذا العمل، نقدم نهجنا على مهمة تصنيف التعليقات السامة (الفرعية 1) من المهمة المشتركة لجيرفال 2021.لهذه المهمة الثنائية، نقترح ثلاث نماذج: نموذج محول بيرت ألماني؛Perceptron متعدد الطبقات، التي تم تدريبها لأول مرة بالتوازي على الإدخال النصي و 14 ميز ات لغوية إضافية ثم تم تسليمها في طبقة إضافية؛ومثيرة الطبقات متعدد الطبقات مع كل من أنواع الميزات كمدخلات.عززنا النموذج المحول المدرب مسبقا من خلال إعادة تدريبه مع أكثر من مليون تغريدة وصقله على مجموعة بيانات ألمانية إضافية من مهام مماثلة.تم اتخاذ أنظمة بيرت الألمانية النهائية التي تم ضبطها بشكل نهائي كميزات مدخلات نصية لشبكاتنا العصبية.كانت أفضل النماذج الخاصة بنا في بيانات التحقق من الصحة كانت شبكات عصبية، لكن بيرت الألمانية المعززة المكتسبة مع درجة F1 = 0.5895 تنبؤ أعلى في بيانات الاختبار.
أدى توافر تمثيلات اللغة التي تعلمتها نماذج الشبكة العصبية العصبية الكبيرة (مثل Bert and Electra) إلى تحسينات في العديد من مهام معالجة اللغة الطبيعية المصب في السنوات الأخيرة.تختلف النماذج المحددة عادة في الأهداف المحددة، والبنية، ومجموعات البيانات ال تي تم تدريبها عليها والتي يمكن أن تؤثر على أداء المصب.في هذه المساهمة، نحن نضرب نماذج بيرت الألمانية والألمانية الكترا لتحديد السامة (الفرعية 1)، وجذابة (SubTask 2)، وتعليقات تدعي الحقائق (SubTask 3) في بيانات Facebook المقدمة من مسابقة Germeval 2021.أنشأنا مجموعة من هذه النماذج والتحقيق في ما إذا كان أداء التصنيف يعتمد على عدد أعضاء الفرقة وتكوينهم.على بيانات خارج العينة، حققت أفضل مجموعة لدينا درجة ماكرو F1 من 0.73 (لجميع المهام الفرعية)، وعشرات F1 من 0.72، 0.70، و 0.76 للحصول على المهام الفرعية 1، 2، و 3، على التوالي.
تتناول هذه الورقة تحديد تعليقات سامة ومشاركة وتحقيق الحقائق على وسائل التواصل الاجتماعي.استخدمنا مجموعة البيانات المتاحة من قبل منظمي المهمة المشتركة Germeval2021 التي تحتوي على أكثر من 3000 تعليقات Facebook المزروعة يدويا باللغة الألمانية.بالنظر إلى رابط المهام الثلاث، اتصلنا بالمشكلة باستخدام نماذج محولات محول كبيرة مدربة مسبقا وتعلم التعدد المتعدد.تشير نتائجنا إلى أن التعلم المتعدد يحقق الأداء متفوقا على نهج التعلم المهمة الأكثر شيوعا في المهام الثلاثة.نقدم أفضل أنظمةنا إلى Germeval-2021 تحت اسم الفريق WLV-RIT.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا