ترغب بنشر مسار تعليمي؟ اضغط هنا

DALC: كوربوس اللغة الهولندية المسيئة

DALC: the Dutch Abusive Language Corpus

444   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

كما تصبح لغة غير مقبولة اجتماعيا منتشرة في منصات وسائل التواصل الاجتماعي، أصبحت الحاجة إلى اعتدال المحتوى التلقائي أكثر إلحاحا.تقدم هذه المساهمة كوربوس اللغة المسيئة الهولندية (DALC V1.0)، وهي مجموعة بيانات جديدة مع تغريدات يدويا للغة المسيئة.إن مزين بالموارد تلبيس فجوة في موارد اللغة الهولندية ويعتمد مخطط توضيحي متعدد الطبقات النمذجة صريحا وهدف الرسائل المسيئة.تم إجراء تجارب الأساس في جميع طبقات التوضيحية، وتحقيق درجة ماكرو F1 من 0.748 للتصنيف الثنائي لطبقة صريحة و .489 للتصنيف المستهدف.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أصبح استخدام آليات الاهتمام في أساليب التعلم العميق شعبية في معالجة اللغة الطبيعية بسبب أدائه المعلقة. يسمح باستخدام هذه الآليات إلى إحدى الأهمية لإدارة أهمية عناصر التسلسل وفقا لسياقها، ومع ذلك، فقد تمت ملاحظتها هذه الأهمية بشكل مستقل بين أزواج عناص ر التسلسل (اهتمام الذات) وبين مجال تطبيق التسلسل (الاهتمام السياقي)، مما يؤدي إلى فقد المعلومات ذات الصلة والحد من تمثيل التسلسلات. لمعالجة هذه القضايا الخاصة هذه نقترح آلية الاهتمام الذاتي الذاتي، والتي تتداول قبالة القيود السابقة، من خلال النظر في العلاقات الداخلية والسياقية بين عناصر التسلسل. تم تقييم الآلية المقترحة في أربع مجموعات قياسية لتحقيق مهمة تحديد اللغة المسيئة لتحقيق النتائج المشجعة. تفوقت على آليات الاهتمام الحالية وأظهرت أداء تنافسي فيما يتعلق بالنهج الحديثة من بين الفن.
نظرا لأن النهج القائم على المعجم هو أكثر أناقة علميا، أوضح مكونات الحل وأسهل التعميم إلى التطبيقات الأخرى، توفر هذه الورقة نهجا جديدا للغة الهجومية والكشف عن الكلام على وسائل التواصل الاجتماعي، والتي تجسد معجم من الهجوم الضمني والبريثوإقتصار التعبيرا ت المشروح مع المعلومات السياقية.نظرا لشدة تعليقات وسائل التواصل الاجتماعي المسيئة في البرازيل، وعدم وجود أبحاث باللغة البرتغالية والبرتغالية البرازيلية هي اللغة المستخدمة للتحقق من صحة النماذج.ومع ذلك، قد يتم تطبيق طريقتنا على أي لغة أخرى.تظهر التجارب التي أجراها فعالية النهج المقترح، مما يتفوق على الأساليب الأساسية الحالية للغة البرتغالية.
في الوقت الحاضر، تستخدم منصات وسائل التواصل الاجتماعي نماذج التصنيف للتعامل مع خطاب الكراهية واللغة المسيئة.مشكلة هذه النماذج هي ضعفها للحيز.شكل منتشر من التحيز في خطاب الكراهية ومجموعات البيانات اللغوية المسيئة هو التحيز الهندي الناجم عن التصور النف سي للتعليق وتعقيد مهمة الشرح.في ورقتنا، نقوم بتطوير مجموعة من الأساليب لقياس التحيز العنافي في مجموعات البيانات اللغوية المسيئة وتحديد وجهات نظر مختلفة باللغة المسيئة.نحن نطبق هذه الأساليب إلى أربع مجموعات بيانات مختلفة للغة المسيئة.يدعم نهجنا المقترح عمليات التوضيحية لهذه مجموعات البيانات والبحوث المستقبلية التي تتناول وجهات نظر مختلفة حول تصور اللغة المسيئة.
تبلغ نماذج الكشف عن اللغة المسيئة للحكومة الأمريكية أداء كبير في Corpus، ولكن أداء الفضل عند تقييم التعليقات المسيئة التي تختلف عن سيناريو التدريب.نظرا لأن الشروح البشرية ينطوي على وقت وجهد كبير، فإن النماذج التي يمكن أن تتكيف مع التعليقات التي تم جم عها حديثا يمكن أن تكون مفيدة.في هذه الورقة، نحقق في فعالية العديد من نهج تكيف النطاقات غير المدمرة (UDA) لمهمة الكشف عن اللغة المسيئة.بالمقارنة، نقوم بتكييف متغير نموذج BERT، تدربت على تعليقات مسيئة واسعة النطاق، باستخدام طراز لغة ملثم (MLM)يوضح تقييمنا أن نهج UDA تؤدي إلى أداء فرعي الأمثل، في حين أن ضبط الريامة الجميلة لا يتحسن في إعداد العرض.يكشف التحليل المفصل عن حدود نهج UDA ويؤكد على الحاجة إلى بناء طرق تكيف فعالة لهذه المهمة.
نقدم HATEBERT، نموذج BERT الذي تم تدريبه على إعادة تدريب للكشف عن اللغة المسيئة باللغة الإنجليزية.تم تدريب النموذج على RAL-E، وهي مجموعة بيانات واسعة النطاق من تعليقات Reddit باللغة الإنجليزية من المجتمعات المحظورة لكونها مسيئة أو بغيضة حيث قمنا بإتا حتها للجمهور.نقدم نتائج مقارنة مفصلة بين نموذج اللغة المدرب مسبقا والنسخة المستقلة على ثلاث مجموعات بيانات باللغة الإنجليزية لمهام الهجومية والمسيئة ومهام الكشف عن الكلام.في جميع مجموعات البيانات، تتفوق HateBERT على نموذج بيرت العام.ونناقش أيضا مجموعة تجارب تقارن إمكانية نقل النماذج الصعبة في مجموعات البيانات، مما يشير إلى أن القدرة على التأثر بالتوافق مع الظواهر المشروحة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا