تتناول هذه الورقة مناهج مختلفة لمهمة الكشف عن المسيح السامة. كانت المشكلة التي تطرحتها المهمة هي تحديد الكلمات التي تساهم في الغالب في الاعتراف بالوثيقة السامة. على عكس التصنيف الثنائي للنصوص بأكملها، يمكن أن يكون التقييم على مستوى الكلمات استخداما كبيرا خلال الاعتدال التعليق، والسماح أيضا بفهم أكثر متعمقا من تنبؤات النموذج. نظرا لأن الهدف الرئيسي هو ضمان الشفافية والتفاهم، تركز هذه الورقة على النهج الحالية للدولة الحالية بناء على مفاهيم منظمة العفو الدولية القابلة للتفسير ويقارنها بحل تعليمي مشارضة مع تسميات مستوى الكلمات. يتكون العمل من أساليب Xai التي توفر توضيحا تلقائيا للنماذج المدربة للتصنيف الثنائي للوثائق السامة: نموذج LSTM مع الاهتمام كهدوء خاص بالنماذج وقيم SHOPLEY لتفسير تنبؤات برت كطريقة نموذجية للنموذج. تعتبر النهج المتنافس هذه المشكلة كتصنيف رمزي تحت إشراف، حيث تم اختبار النماذج مثل بيرت وتعديلاتها. تهدف الورقة إلى استكشاف وقارن وتقييم جودة التنبؤات بطرق مختلفة في المهمة. كما تمت مناقشة مزايا كل نهج وإشراف البحث الإضافي أيضا.
This paper discusses different approaches to the Toxic Spans Detection task. The problem posed by the task was to determine which words contribute mostly to recognising a document as toxic. As opposed to binary classification of entire texts, word-level assessment could be of great use during comment moderation, also allowing for a more in-depth comprehension of the model's predictions. As the main goal was to ensure transparency and understanding, this paper focuses on the current state-of-the-art approaches based on the explainable AI concepts and compares them to a supervised learning solution with word-level labels. The work consists of two xAI approaches that automatically provide the explanation for models trained for binary classification of toxic documents: an LSTM model with attention as a model-specific approach and the Shapley values for interpreting BERT predictions as a model-agnostic method. The competing approach considers this problem as supervised token classification, where models like BERT and its modifications were tested. The paper aims to explore, compare and assess the quality of predictions for different methods on the task. The advantages of each approach and further research direction are also discussed.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نصف نظامنا المستخدم في مهمة Semeval 2021 7: hahackathon: الكشف عن الفكاهة والجريمة.استخدمنا نهجا بسيطا للضبط باستخدام نماذج لغة مدربة مسبقا مختلفة (PLMS) لتقييم أدائها للكشف عن الفكاهة والجريمة.بالنسبة لمهام الانحدار، بلغنا متوسط عدد ا
تقدم هذه الورقة نظامنا للحصول على تحديد كمية الكمية، وحدة تحديد الهوية القياس وتصنيف مستوى القيمة الفرعية من المهمة 2021.كان الغرض من مهمة تحديد الكمية تحديد موقع تحديد موقع تمديد النصوص التي تحتوي على عدد أو قياس، يتكون من قيمة، يتبعها عادة وحدة ومع
تصف هذه الورقة تقديمنا إلى مهمة Semeval-2021 1: التنبؤ بدرجة التعقيد لكلمات واحدة.النموذج لدينا يهدف إلى ارتفاع الميزات المورفوسنكتاكيتش والمترددات المستندة إلى التردد التي أثبتت أنها مفيدة لتحديد الكلمات المعقدة (مهمة ذات صلة)، وتجمع بينها مع تنبؤات
في هذا العمل، نقدم نهجنا ونتائجنا لمهمة Semeval-2021 للكشف عن الفقاعات السامة.كان الهدف الرئيسي للمهمة هو تحديد المواقيات التي يمكن أن تعزى سمية نص معين.المهمة تحديا أساسا بسبب قيود اثنين: مجموعة بيانات التدريب الصغيرة وتوزيع الفئة غير المتوازنة.تقوم
غالبا ما تكون اللغة السامة موجودة في المنتديات عبر الإنترنت، خاصة عندما تنشأ السياسة وغيرها من الموضوعات الاستقطابية، ويمكن أن تؤدي إلى أن يصبحوا محبطين من الانضمام إلى المحادثات أو الاستمرار فيها.في هذه الورقة، نستخدم البيانات التي تتألف من تعليقات