في الوقت الحاضر، تستخدم منصات وسائل التواصل الاجتماعي نماذج التصنيف للتعامل مع خطاب الكراهية واللغة المسيئة.مشكلة هذه النماذج هي ضعفها للحيز.شكل منتشر من التحيز في خطاب الكراهية ومجموعات البيانات اللغوية المسيئة هو التحيز الهندي الناجم عن التصور النف
سي للتعليق وتعقيد مهمة الشرح.في ورقتنا، نقوم بتطوير مجموعة من الأساليب لقياس التحيز العنافي في مجموعات البيانات اللغوية المسيئة وتحديد وجهات نظر مختلفة باللغة المسيئة.نحن نطبق هذه الأساليب إلى أربع مجموعات بيانات مختلفة للغة المسيئة.يدعم نهجنا المقترح عمليات التوضيحية لهذه مجموعات البيانات والبحوث المستقبلية التي تتناول وجهات نظر مختلفة حول تصور اللغة المسيئة.
كما تصبح لغة غير مقبولة اجتماعيا منتشرة في منصات وسائل التواصل الاجتماعي، أصبحت الحاجة إلى اعتدال المحتوى التلقائي أكثر إلحاحا.تقدم هذه المساهمة كوربوس اللغة المسيئة الهولندية (DALC V1.0)، وهي مجموعة بيانات جديدة مع تغريدات يدويا للغة المسيئة.إن مزين
بالموارد تلبيس فجوة في موارد اللغة الهولندية ويعتمد مخطط توضيحي متعدد الطبقات النمذجة صريحا وهدف الرسائل المسيئة.تم إجراء تجارب الأساس في جميع طبقات التوضيحية، وتحقيق درجة ماكرو F1 من 0.748 للتصنيف الثنائي لطبقة صريحة و .489 للتصنيف المستهدف.
نقدم HATEBERT، نموذج BERT الذي تم تدريبه على إعادة تدريب للكشف عن اللغة المسيئة باللغة الإنجليزية.تم تدريب النموذج على RAL-E، وهي مجموعة بيانات واسعة النطاق من تعليقات Reddit باللغة الإنجليزية من المجتمعات المحظورة لكونها مسيئة أو بغيضة حيث قمنا بإتا
حتها للجمهور.نقدم نتائج مقارنة مفصلة بين نموذج اللغة المدرب مسبقا والنسخة المستقلة على ثلاث مجموعات بيانات باللغة الإنجليزية لمهام الهجومية والمسيئة ومهام الكشف عن الكلام.في جميع مجموعات البيانات، تتفوق HateBERT على نموذج بيرت العام.ونناقش أيضا مجموعة تجارب تقارن إمكانية نقل النماذج الصعبة في مجموعات البيانات، مما يشير إلى أن القدرة على التأثر بالتوافق مع الظواهر المشروحة.
أصبح استخدام آليات الاهتمام في أساليب التعلم العميق شعبية في معالجة اللغة الطبيعية بسبب أدائه المعلقة. يسمح باستخدام هذه الآليات إلى إحدى الأهمية لإدارة أهمية عناصر التسلسل وفقا لسياقها، ومع ذلك، فقد تمت ملاحظتها هذه الأهمية بشكل مستقل بين أزواج عناص
ر التسلسل (اهتمام الذات) وبين مجال تطبيق التسلسل (الاهتمام السياقي)، مما يؤدي إلى فقد المعلومات ذات الصلة والحد من تمثيل التسلسلات. لمعالجة هذه القضايا الخاصة هذه نقترح آلية الاهتمام الذاتي الذاتي، والتي تتداول قبالة القيود السابقة، من خلال النظر في العلاقات الداخلية والسياقية بين عناصر التسلسل. تم تقييم الآلية المقترحة في أربع مجموعات قياسية لتحقيق مهمة تحديد اللغة المسيئة لتحقيق النتائج المشجعة. تفوقت على آليات الاهتمام الحالية وأظهرت أداء تنافسي فيما يتعلق بالنهج الحديثة من بين الفن.
الكشف عن اللغة المسيئة هو حقل ناشئ في معالجة اللغة الطبيعية تلقت قدرا كبيرا من الاهتمام مؤخرا.لا يزال نجاح الكشف التلقائي محدود.لا سيما، كشف اللغة المسيئة ضمنيا، أي لغة مسيئة لا تنقلها كلمات مسيئة (مثل dumbass أو حثالة)، لا تعمل بشكل جيد.في هذه الورق
ة الموضعية، نوضح لماذا تجعل مجموعات البيانات الحالية التعلم إساءة استخدام ضمني صعبة وما يجب تغييره في تصميم مثل هذه البيانات.جدال لاستراتيجية الأقسام والانقسام، نقدم قائمة فرعية من اللغة المسيئة الضمنيا وصياغة المهام والأسئلة البحثية للبحث في المستقبل.
تبلغ نماذج الكشف عن اللغة المسيئة للحكومة الأمريكية أداء كبير في Corpus، ولكن أداء الفضل عند تقييم التعليقات المسيئة التي تختلف عن سيناريو التدريب.نظرا لأن الشروح البشرية ينطوي على وقت وجهد كبير، فإن النماذج التي يمكن أن تتكيف مع التعليقات التي تم جم
عها حديثا يمكن أن تكون مفيدة.في هذه الورقة، نحقق في فعالية العديد من نهج تكيف النطاقات غير المدمرة (UDA) لمهمة الكشف عن اللغة المسيئة.بالمقارنة، نقوم بتكييف متغير نموذج BERT، تدربت على تعليقات مسيئة واسعة النطاق، باستخدام طراز لغة ملثم (MLM)يوضح تقييمنا أن نهج UDA تؤدي إلى أداء فرعي الأمثل، في حين أن ضبط الريامة الجميلة لا يتحسن في إعداد العرض.يكشف التحليل المفصل عن حدود نهج UDA ويؤكد على الحاجة إلى بناء طرق تكيف فعالة لهذه المهمة.
في هذه الورقة نناقش العديد من التحديات المتعلقة بتطوير لعبة ثلاثية الأبعاد، تهدف هدفها إلى زيادة الوعي بالتبريد الإلكتروني أثناء جمع التوضيح اللغوي في اللغة الهجومية.من المفترض أن تستخدم اللعبة من قبل المراهقين، وبالتالي رفع عدد من القضايا التي يجب م
عالجتها أثناء التنمية.على سبيل المثال، يجب أن تكون جماليات اللعبة جذابة للاعبين الذين ينتمون إلى هذه الفئة العمرية، ولكن في الوقت نفسه يجب تنفيذ جميع الحلول الممكنة لتلبية متطلبات الخصوصية.أيضا، ينبغي إخفاء مهمة الشروح اللغوية مخفية، وتبني ما يسمى ميكانيكا اللعبة المتعامدة، دون التأثير على جودة البيانات التي تم جمعها.في حين أن بعض هذه التحديات يتم تناولها في تطوير اللعبة، نناقش بعض الآخرين في هذه الورقة ولكن لا يزال يفتقر إلى حل نهائي.