في السنوات الأخيرة، أدى الاستخدام الواسع للوسائط الاجتماعية إلى زيادة في جيل من المحتوى السام والهجومي على المنصات عبر الإنترنت. استجابة، عملت منصات وسائل التواصل الاجتماعي على تطوير أساليب الكشف التلقائي وتوظيف المشرفين البشري للتعامل مع هذا الطوفان من المحتوى الهجومي. في حين تم تطبيق العديد من النماذج الإحصائية للحدث من بين الفنون للكشف عن الوظائف السامة، لا توجد سوى عدد قليل من الدراسات التي تركز على الكشف عن الكلمات أو التعبيرات التي تشكل هجوما بعد. هذا يحفز تنظيم مهمة Semeval-2021 5: مسابقة الكشف عن المسافات السامة، التي قدمت المشاركين مع مجموعة بيانات تحتوي على شرح سام يمتد في المشاركات الإنكليزية. في هذه الورقة، نقدم دخول WLV-RIT لمهمة Semeval-2021 5. يحقق نموذجنا الأفضل أداء محول العصبي 0.68 F1 درجة. علاوة على ذلك، نقوم بتطوير إطار مفتوح المصدر للكشف المتعدد اللغات عن الممثل الهجومي، أي القنص، بناء على المحولات العصبية التي تكتشف تمديد السام في النصوص.
In recent years, the widespread use of social media has led to an increase in the generation of toxic and offensive content on online platforms. In response, social media platforms have worked on developing automatic detection methods and employing human moderators to cope with this deluge of offensive content. While various state-of-the-art statistical models have been applied to detect toxic posts, there are only a few studies that focus on detecting the words or expressions that make a post offensive. This motivates the organization of the SemEval-2021 Task 5: Toxic Spans Detection competition, which has provided participants with a dataset containing toxic spans annotation in English posts. In this paper, we present the WLV-RIT entry for the SemEval-2021 Task 5. Our best performing neural transformer model achieves an 0.68 F1-Score. Furthermore, we develop an open-source framework for multilingual detection of offensive spans, i.e., MUDES, based on neural transformers that detect toxic spans in texts.
المراجع المستخدمة
https://aclanthology.org/
تقدم هذه الورقة التقديم الخاص بنا إلى مهمة Semeval-2021 5: الكشف عن الأمور السامة.الغرض من هذه المهمة هو اكتشاف المواقف التي تجعل النص ساما، وهو عمل معقد لعدة أسباب.أولا، بسبب الذاتية الجوهرية للسمية، وثانيا، بسبب السمية لا تأتي دائما من كلمات مفردة
تصف هذه الورقة مشاركة فريق سيناء في المهمة 5: الكشف عن الأمور السامة التي تتكون من تحديد المواقف التي تجعل النص سام.على الرغم من أن العديد من الموارد والأنظمة قد تم تطويرها حتى الآن في سياق اللغة الهجومية، ركزت كل من التوضيحية والمهام بشكل رئيسي على
تتطلب مهمة الكشف عن المسافة السامة في Semeval-2021 المشاركين الذين يتعين على المشاركين التنبؤ بالوظائف السامة التي كانت مسؤولة عن الملصق السام للوظائف.يمكن معالجة المهمة كمصموع تسلسل إشراف، باستخدام بيانات التدريب مع يمتد سامة الذهب المقدمة من المنظم
اكتشاف المواقف السامة - اكتشاف سمية المحتويات في حبيبتي الرموز - أمر حاسم للاعتدال الفعال للمناقشات عبر الإنترنت.تتمثل النهج الأساسي في هذه المشكلة في استخدام نموذج المحول في إضافة رأس تصنيف رمزي إلى طراز اللغة وضبط الطبقات الدقيقة مع مجموعة بيانات ا
في هذا العمل، نقدم نهجنا ونتائجنا لمهمة Semeval-2021 للكشف عن الفقاعات السامة.كان الهدف الرئيسي للمهمة هو تحديد المواقيات التي يمكن أن تعزى سمية نص معين.المهمة تحديا أساسا بسبب قيود اثنين: مجموعة بيانات التدريب الصغيرة وتوزيع الفئة غير المتوازنة.تقوم