اكتشاف المواقف السامة - اكتشاف سمية المحتويات في حبيبتي الرموز - أمر حاسم للاعتدال الفعال للمناقشات عبر الإنترنت.تتمثل النهج الأساسي في هذه المشكلة في استخدام نموذج المحول في إضافة رأس تصنيف رمزي إلى طراز اللغة وضبط الطبقات الدقيقة مع مجموعة بيانات المسمى الرمز المميز.واحدة من قيود مثل هذا النهج الأساسي هي ندرة البيانات المسمى.لتحسين النتائج، درسنا الاستفادة من مجموعات البيانات العامة الحالية للحصول على مهمة ذات صلة ولكن مختلفة بتصنيف التعليق / الجملة بأكملها.نقترح مقارنتين: النهج الأول نماذج محول بخامة مدربة مسبقا في عينات تصنيف الجملة.في النهج الثاني، نقوم بإجراء إشراف ضعيف مع الاهتمام اللين لتعلم تسميات مستوى الرموز من ملصقات الجملة.تجاربنا تظهر التحسينات في درجة F1 عبر النهج الأساسي.تم إصدار التنفيذ علنا.
Detection of toxic spans - detecting toxicity of contents in the granularity of tokens - is crucial for effective moderation of online discussions. The baseline approach for this problem using the transformer model is to add a token classification head to the language model and fine-tune the layers with the token labeled dataset. One of the limitations of such a baseline approach is the scarcity of labeled data. To improve the results, We studied leveraging existing public datasets for a related but different task of entire comment/sentence classification. We propose two approaches: the first approach fine-tunes transformer models that are pre-trained on sentence classification samples. In the second approach, we perform weak supervision with soft attention to learn token level labels from sentence labels. Our experiments show improvements in the F1 score over the baseline approach. The implementation has been released publicly.
المراجع المستخدمة
https://aclanthology.org/
تتطلب مهمة الكشف عن المسافة السامة في Semeval-2021 المشاركين الذين يتعين على المشاركين التنبؤ بالوظائف السامة التي كانت مسؤولة عن الملصق السام للوظائف.يمكن معالجة المهمة كمصموع تسلسل إشراف، باستخدام بيانات التدريب مع يمتد سامة الذهب المقدمة من المنظم
في هذا العمل، نقدم نهجنا ونتائجنا لمهمة Semeval-2021 للكشف عن الفقاعات السامة.كان الهدف الرئيسي للمهمة هو تحديد المواقيات التي يمكن أن تعزى سمية نص معين.المهمة تحديا أساسا بسبب قيود اثنين: مجموعة بيانات التدريب الصغيرة وتوزيع الفئة غير المتوازنة.تقوم
تقدم هذه الورقة التقديم الخاص بنا إلى مهمة Semeval-2021 5: الكشف عن الأمور السامة.الغرض من هذه المهمة هو اكتشاف المواقف التي تجعل النص ساما، وهو عمل معقد لعدة أسباب.أولا، بسبب الذاتية الجوهرية للسمية، وثانيا، بسبب السمية لا تأتي دائما من كلمات مفردة
تقدم هذه الورقة نظام يستخدم لمهمة Semeval-2021 5: الكشف عن المسافة السامة.نظامنا هو مجموعة من النماذج القائمة على بيرت لتصنيف الكلمة الثنائية، مدربة على مجموعة بيانات تمتد بواسطة التعليقات السامة المعدلة وتولدها نماذج لغتين.بالنسبة لتصنيف الكلمة السا
في هذه الورقة، نصف نظامنا المستخدمة في مهمة Semeval 2021 5: الكشف عن الأمور السامة.ينتهك نظامنا المقترح من مشكلة مهمة تصنيف رمزية.قمنا بتدريب نموذجنا للعثور على كلمات سامة وتسلسل يمتد إلى التنبؤ باليوفق السام في غضون جملة.نحن نطبات نماذج اللغة المدرب