اكتشاف أجزاء من الجملة المساهمة في سمية الجملة - - بدلا من توفير حكم على مستوى الجملة من البهمة --- من شأنه أن يزيد من تفسير النماذج والسماح للمشرفين البشري بفهم نواتج النظام بشكل أفضل.تقدم هذه الورقة فريقنا، UTNLP، منهجية ونتائج المهمة المشتركة SEMEVAL-2021 5 على الكشف عن الأمور السامة.نقوم باختبار نماذج متعددة وإدارات سياقية وأبلغ عن أفضل الإعداد من الجميع.تبدأ التجارب بنماذج قائمة على الكلمات الرئيسية ويتبعها نماذج القائم على الكيانات المستندة إلى الكيانات المستندة إلى مجال الانتباه، والتي تستند إلى الكيانات المستندة إلى الكيان ومقرها المحولات.أفضل نهجنا، نموذج الفرقة، يحقق F1 من 0.684 في مرحلة تقييم المسابقة.
Detecting which parts of a sentence contribute to that sentence's toxicity---rather than providing a sentence-level verdict of hatefulness--- would increase the interpretability of models and allow human moderators to better understand the outputs of the system. This paper presents our team's, UTNLP, methodology and results in the SemEval-2021 shared task 5 on toxic spans detection. We test multiple models and contextual embeddings and report the best setting out of all. The experiments start with keyword-based models and are followed by attention-based, named entity- based, transformers-based, and ensemble models. Our best approach, an ensemble model, achieves an F1 of 0.684 in the competition's evaluation phase.
المراجع المستخدمة
https://aclanthology.org/
تصف هذه الورقة مشاركة فريق سيناء في المهمة 5: الكشف عن الأمور السامة التي تتكون من تحديد المواقف التي تجعل النص سام.على الرغم من أن العديد من الموارد والأنظمة قد تم تطويرها حتى الآن في سياق اللغة الهجومية، ركزت كل من التوضيحية والمهام بشكل رئيسي على
غالبا ما تكون اللغة السامة موجودة في المنتديات عبر الإنترنت، خاصة عندما تنشأ السياسة وغيرها من الموضوعات الاستقطابية، ويمكن أن تؤدي إلى أن يصبحوا محبطين من الانضمام إلى المحادثات أو الاستمرار فيها.في هذه الورقة، نستخدم البيانات التي تتألف من تعليقات
تقدم هذه الورقة نظام يستخدم لمهمة Semeval-2021 5: الكشف عن المسافة السامة.نظامنا هو مجموعة من النماذج القائمة على بيرت لتصنيف الكلمة الثنائية، مدربة على مجموعة بيانات تمتد بواسطة التعليقات السامة المعدلة وتولدها نماذج لغتين.بالنسبة لتصنيف الكلمة السا
مع النمو السريع في التكنولوجيا، شهد نشاط وسائل التواصل الاجتماعي طفرة في جميع الفئات العمرية.من المستحيل الإنساني التحقق من جميع التغريدات والتعليقات والحالة يدويا ما إذا كانت تتبع إرشادات المجتمع المناسبة.يتم نشر الكثير من السمية بانتظام على منصات و
تم استخدام الشبكات العصبية المتكررة على نطاق واسع في مهام معالجة اللغة الطبيعية المختلفة (NLP) مثل تصنيف النص وعلامات التسلسل والترجمة الآلية.ذاكرة طويلة الأجل طويلة الأجل (LSTM)، وهي وحدة خاصة من RNN، لديها فائدة من حفظ المعلومات السابقة وحتى المستق