تقدم هذه الورقة تقديم نظامنا إلى المهمة 5: تمثل المسابقة السامة من مسابقة Semeval-2021.تهدف المنافسة إلى اكتشاف الجرف الذي يصنع سامة سامة.في هذه الورقة، نوضح نظامنا للكشف عن المواقف السامة، والتي تشمل توسيع نطاق التدريب السام الذي تم تعيينه مع تفسيرات نموذجية غير مرغوية للطراز المحلي (الجير)، وطيب الروبيرتا الناعم للكشف، وتحليل الأخطاء.وجدنا أن إطعام النموذج مع مجموعة تدريبية موسعة باستخدام تعليقات Reddit من السماد المستقطب والسمية مع الجير على رأس تصنيف الانحدار اللوجستي يمكن أن يساعد روبرتا على تعلم أكثر دقة التعرف على الأمور السامة.حققنا درجة F1 المستفادة من 0.6715 على مرحلة الاختبار.تظهر نتائجنا الكمية والنوعية أن التنبؤات من نظامنا يمكن أن تكون ملحقا جيدا لشروح مجموعة تدريب الذهب.
This paper presents our system submission to task 5: Toxic Spans Detection of the SemEval-2021 competition. The competition aims at detecting the spans that make a toxic span toxic. In this paper, we demonstrate our system for detecting toxic spans, which includes expanding the toxic training set with Local Interpretable Model-Agnostic Explanations (LIME), fine-tuning RoBERTa model for detection, and error analysis. We found that feeding the model with an expanded training set using Reddit comments of polarized-toxicity and labeling with LIME on top of logistic regression classification could help RoBERTa more accurately learn to recognize toxic spans. We achieved a span-level F1 score of 0.6715 on the testing phase. Our quantitative and qualitative results show that the predictions from our system could be a good supplement to the gold training set's annotations.
المراجع المستخدمة
https://aclanthology.org/
توضح هذه الورقة النظام الذي طوره مركز أنتويرب للعلوم الإنسانية الرقمية والنقد الأدبي [UANTWERP] للكشف عن السامة.استخدمنا مجموعة تعميم مكدسة من خمسة نماذج مكونة، مع تفسيرات مميزة للمهمة.حاولت نماذج التنبؤ بتسمم سمية الكلمات الثنائية بناء على تسلسل الن
السمية منتشرة في وسائل التواصل الاجتماعي وتشكل تهديدا كبيرا لصحة المجتمعات عبر الإنترنت.أدت مقدمة أحدث نماذج اللغة المدربة مسبقا، والتي حققت نتائج أحدث من المهام في العديد من المهام NLP، الطريقة التي نقترب بها معالجة اللغة الطبيعية.ومع ذلك، فإن الطبي
تقدم هذه المقالة وصف نظام فريق المحور، الذي يفسر العمل ذي الصلة والنتائج التجريبية لمشاركة فريقنا في مهمة Semeval 2021 5: الكشف السام يمتد.تأتي بيانات هذه المهمة المشتركة من بعض المشاركات على الإنترنت.الهدف المهمة هو تحديد المحتوى السام الوارد في هذه
تتطلب مهمة الكشف عن المسافة السامة في Semeval-2021 المشاركين الذين يتعين على المشاركين التنبؤ بالوظائف السامة التي كانت مسؤولة عن الملصق السام للوظائف.يمكن معالجة المهمة كمصموع تسلسل إشراف، باستخدام بيانات التدريب مع يمتد سامة الذهب المقدمة من المنظم
تم استخدام الشبكات العصبية المتكررة على نطاق واسع في مهام معالجة اللغة الطبيعية المختلفة (NLP) مثل تصنيف النص وعلامات التسلسل والترجمة الآلية.ذاكرة طويلة الأجل طويلة الأجل (LSTM)، وهي وحدة خاصة من RNN، لديها فائدة من حفظ المعلومات السابقة وحتى المستق