توضح هذه الورقة النظام الذي طوره مركز أنتويرب للعلوم الإنسانية الرقمية والنقد الأدبي [UANTWERP] للكشف عن السامة.استخدمنا مجموعة تعميم مكدسة من خمسة نماذج مكونة، مع تفسيرات مميزة للمهمة.حاولت نماذج التنبؤ بتسمم سمية الكلمات الثنائية بناء على تسلسل النجرام، بينما تم تدريب 3 نماذج قاسية قائمة على أساس أن توقع ملصقات رمزية سامة بناء على الرموز التسلسلية الكاملة.تم فرك تنبؤات النماذج الخمس داخل نموذج LSTM.بالإضافة إلى وصف النظام، نقوم بإجراء تحليل الأخطاء لاستكشاف الأداء النموذجي فيما يتعلق بالميزات النصية.سجل النظام الموصوف في هذه الورقة 0.6755 واحتل المرتبة 26.
This paper describes the system developed by the Antwerp Centre for Digital humanities and literary Criticism [UAntwerp] for toxic span detection. We used a stacked generalisation ensemble of five component models, with two distinct interpretations of the task. Two models attempted to predict binary word toxicity based on ngram sequences, whilst 3 categorical span based models were trained to predict toxic token labels based on complete sequence tokens. The five models' predictions were ensembled within an LSTM model. As well as describing the system, we perform error analysis to explore model performance in relation to textual features. The system described in this paper scored 0.6755 and ranked 26th.
المراجع المستخدمة
https://aclanthology.org/
تقدم هذه الورقة تقديم نظامنا إلى المهمة 5: تمثل المسابقة السامة من مسابقة Semeval-2021.تهدف المنافسة إلى اكتشاف الجرف الذي يصنع سامة سامة.في هذه الورقة، نوضح نظامنا للكشف عن المواقف السامة، والتي تشمل توسيع نطاق التدريب السام الذي تم تعيينه مع تفسيرا
تقدم هذه الورقة التقديم الخاص بنا إلى مهمة Semeval-2021 5: الكشف عن الأمور السامة.الغرض من هذه المهمة هو اكتشاف المواقف التي تجعل النص ساما، وهو عمل معقد لعدة أسباب.أولا، بسبب الذاتية الجوهرية للسمية، وثانيا، بسبب السمية لا تأتي دائما من كلمات مفردة
تقدم هذه المقالة وصف نظام فريق المحور، الذي يفسر العمل ذي الصلة والنتائج التجريبية لمشاركة فريقنا في مهمة Semeval 2021 5: الكشف السام يمتد.تأتي بيانات هذه المهمة المشتركة من بعض المشاركات على الإنترنت.الهدف المهمة هو تحديد المحتوى السام الوارد في هذه
في السنوات الأخيرة، أدى الاستخدام الواسع للوسائط الاجتماعية إلى زيادة في جيل من المحتوى السام والهجومي على المنصات عبر الإنترنت. استجابة، عملت منصات وسائل التواصل الاجتماعي على تطوير أساليب الكشف التلقائي وتوظيف المشرفين البشري للتعامل مع هذا الطوفان
غالبا ما تكون اللغة السامة موجودة في المنتديات عبر الإنترنت، خاصة عندما تنشأ السياسة وغيرها من الموضوعات الاستقطابية، ويمكن أن تؤدي إلى أن يصبحوا محبطين من الانضمام إلى المحادثات أو الاستمرار فيها.في هذه الورقة، نستخدم البيانات التي تتألف من تعليقات