عندما ينتشر خطاب الكراهية على وسائل التواصل الاجتماعي والمجتمعات عبر الإنترنت، يستمر البحث في العمل على الكشف التلقائي.في الآونة الأخيرة، كان أداء الاعتراف يتزايد بفضل التقدم في التعلم العميق وإدماج ميزات المستخدم.يحقق هذا العمل في الآثار التي يمكن أن تحتوي هذه الميزات على نموذج للكشف.على عكس البحث السابق، نظهر أن مقارنة الأداء البسيطة لا تعرض التأثير الكامل لضمان معلومات السياق والمستخدمية.من خلال الاستفادة من تقنيات الشرط، نعرض (1) يلعب ميزات المستخدم دورا في قرار النموذج و (2) كيف تؤثر على مساحة الميزة المستفادة من النموذج.إلى جانب الكشف عن ذلك --- وتوضيح أيضا لماذا --- ميزات المستخدم هي سبب مكاسب الأداء، نوضح كيف يمكن دمج هذه التقنيات إلى فهم النموذج بشكل أفضل والكشف عن التحيز غير المقصود.
As hate speech spreads on social media and online communities, research continues to work on its automatic detection. Recently, recognition performance has been increasing thanks to advances in deep learning and the integration of user features. This work investigates the effects that such features can have on a detection model. Unlike previous research, we show that simple performance comparison does not expose the full impact of including contextual- and user information. By leveraging explainability techniques, we show (1) that user features play a role in the model's decision and (2) how they affect the feature space learned by the model. Besides revealing that---and also illustrating why---user features are the reason for performance gains, we show how such techniques can be combined to better understand the model and to detect unintended bias.
المراجع المستخدمة
https://aclanthology.org/
من المعروف أن حساسية النماذج العميقة العصبية لضوضاء الإدخال مشكلة صعبة.في NLP، يتدهور أداء النموذج غالبا مع الضوضاء التي تحدث بشكل طبيعي، مثل الأخطاء الإملائية.لتخفيف هذه المشكلة، قد تستفيد النماذج البيانات الوكيل بشكل مصطنع.ومع ذلك، تم تحديد كمية ون
أظهرت وكلاء الحوار القرملي العصبي القدرة المتزايدة على إجراء محادثات Chitchat قصيرة، عند تقييمها من قبل CrowDWorkers في الإعدادات التي تسيطر عليها. ومع ذلك، فإن أدائهم في نشر الحياة الحقيقية - التحدث إلى المستخدمين الدوافع الجوهرية في البيئات الصاخبة
تقلص نهج التحيز مع اعتماد النماذج على ميزات البيانات الحساسة للبيانات، مثل رموز المجموعة الاجتماعية (SGTS)، مما يؤدي إلى تنبؤات متساوية عبر الميزات الحساسة.ومع ذلك، في الكشف عن الكلام الكراهية، قد يتجاهل تكالير التعادل النموذجي الاختلافات المهمة بين
نحن نتطلع إلى مهمة اكتشاف الكلام الكراهية التلقائي لغات الموارد المنخفضة.بدلا من جمع وإشراف بيانات خطاب الكراهية الجديدة، نوضح كيفية استخدام التعلم عبر التحويلات عبر اللغات للاستفادة من البيانات الموجودة بالفعل من لغات الموارد العالية.باستخدام مصنفات
كيف يفهم الناس معنى كلمة صغيرة "عند استخدامها لوصف البعوض أو الكنيسة أو كوكب؟في حين أن البشر لديهم قدرة رائعة على تشكيل معاني من خلال الجمع بين المفاهيم القائمة، فإن نمذجة هذه العملية تحديا.تتناول هذه الورقة هذا التحدي من خلال Cerebra (تمثيلات المعنى