نستفيد من BLSTM مع الاهتمام لتحديد المواقف السامة في النصوص.نستكشف أبعاد مختلفة تؤثر على أداء النموذج.البعد الأول الذي تم استكشافه هو المجموعة السامة يتم تدريب النموذج.إلى جانب مجموعة البيانات المقدمة، نستكشف قدرة تحويل 5 مجموعات ذات صلة سامة مختلفة، بما في ذلك مجموعات الهجومية والسامة والمسيئة والكراهية.نجد أن المجموعة المسيئة فقط تظهر أعلى وعد القدرة على التحويل.البعد الثاني الذي نستكشفه هو المنهجية، بما في ذلك الاستفادة من الاهتمام، وتوظيف طريقة إزالة الجشع، باستخدام نسبة التردد، وفحص المجموعات الهجينة من طرق متعددة.نقوم بإجراء تحليل خطأ لفحص أنواع الأيوب السامة التي تم تفويتها والتي تم استنتاجها بشكل خاطئ على أنها سامة مع الأسباب الرئيسية وراء حدوثها.أخيرا، نقوم بتوسيع نطاق أسلوبنا عبر الفرع، والذي يحقق أعلى درجة F1 لدينا من 55.1.
We leverage a BLSTM with attention to identify toxic spans in texts. We explore different dimensions which affect the model's performance. The first dimension explored is the toxic set the model is trained on. Besides the provided dataset, we explore the transferability of 5 different toxic related sets, including offensive, toxic, abusive, and hate sets. We find that the solely offensive set shows the highest promise of transferability. The second dimension we explore is methodology, including leveraging attention, employing a greedy remove method, using a frequency ratio, and examining hybrid combinations of multiple methods. We conduct an error analysis to examine which types of toxic spans were missed and which were wrongly inferred as toxic along with the main reasons why they occurred. Finally, we extend our method via ensembles, which achieves our highest F1 score of 55.1.
المراجع المستخدمة
https://aclanthology.org/
تتطلب مهمة الكشف عن المسافة السامة في Semeval-2021 المشاركين الذين يتعين على المشاركين التنبؤ بالوظائف السامة التي كانت مسؤولة عن الملصق السام للوظائف.يمكن معالجة المهمة كمصموع تسلسل إشراف، باستخدام بيانات التدريب مع يمتد سامة الذهب المقدمة من المنظم
تقدم هذه الورقة التقديم الخاص بنا إلى مهمة Semeval-2021 5: الكشف عن الأمور السامة.الغرض من هذه المهمة هو اكتشاف المواقف التي تجعل النص ساما، وهو عمل معقد لعدة أسباب.أولا، بسبب الذاتية الجوهرية للسمية، وثانيا، بسبب السمية لا تأتي دائما من كلمات مفردة
غالبا ما تكون اللغة السامة موجودة في المنتديات عبر الإنترنت، خاصة عندما تنشأ السياسة وغيرها من الموضوعات الاستقطابية، ويمكن أن تؤدي إلى أن يصبحوا محبطين من الانضمام إلى المحادثات أو الاستمرار فيها.في هذه الورقة، نستخدم البيانات التي تتألف من تعليقات
مع النمو السريع في التكنولوجيا، شهد نشاط وسائل التواصل الاجتماعي طفرة في جميع الفئات العمرية.من المستحيل الإنساني التحقق من جميع التغريدات والتعليقات والحالة يدويا ما إذا كانت تتبع إرشادات المجتمع المناسبة.يتم نشر الكثير من السمية بانتظام على منصات و
تستخدم منصات الشبكة الاجتماعية عموما لمشاركة المحتوى الإيجابي والبناء والرائعة. ومع ذلك، في الآونة الأخيرة، غالبا ما يتعرض الناس على المحتوى المرفوض مثل التهديد وهجمات الهوية أو خطاب الكراهية أو الإهانات أو النصوص الفاحشة أو الملاحظات الهجومية أو الب