ترغب بنشر مسار تعليمي؟ اضغط هنا

تكيف المجال غير المزعج في الكشف عن اللغة المسيئة

Unsupervised Domain Adaptation in Cross-corpora Abusive Language Detection

461   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تبلغ نماذج الكشف عن اللغة المسيئة للحكومة الأمريكية أداء كبير في Corpus، ولكن أداء الفضل عند تقييم التعليقات المسيئة التي تختلف عن سيناريو التدريب.نظرا لأن الشروح البشرية ينطوي على وقت وجهد كبير، فإن النماذج التي يمكن أن تتكيف مع التعليقات التي تم جمعها حديثا يمكن أن تكون مفيدة.في هذه الورقة، نحقق في فعالية العديد من نهج تكيف النطاقات غير المدمرة (UDA) لمهمة الكشف عن اللغة المسيئة.بالمقارنة، نقوم بتكييف متغير نموذج BERT، تدربت على تعليقات مسيئة واسعة النطاق، باستخدام طراز لغة ملثم (MLM)يوضح تقييمنا أن نهج UDA تؤدي إلى أداء فرعي الأمثل، في حين أن ضبط الريامة الجميلة لا يتحسن في إعداد العرض.يكشف التحليل المفصل عن حدود نهج UDA ويؤكد على الحاجة إلى بناء طرق تكيف فعالة لهذه المهمة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يتطلب محتوى الوسائط الاجتماعية المتغيرة بسرعة لنماذج الكشف عن إساءة الاستخدام قوية وممتع.ومع ذلك، فإن النماذج الخاضعة للإشراف على أحدث حدوث عرض الأداء المتدهورة عند تقييمها بشأن التعليقات المسيئة التي تختلف عن Training Corpus.نحقق في ما إذا كان أداء النماذج الخاضعة للإشراف للكشف عن إساءة استخدام سوريا يمكن تحسينه من خلال دمج معلومات إضافية من نماذج الموضوع، حيث يمكن أن يستنتج الأخير مخاليط الموضوعات الكامنة من العينات غير المرئية.على وجه الخصوص، نجمع بين المعلومات الموضعية مع التمثيلات من نموذج تم ضبطه لتصنيف التعليقات المسيئة.يكشف تحليل الأداء الخاص بنا أن نماذج الموضوعات قادرة على التقاط الموضوعات المتعلقة بالإساءة التي يمكنها نقلها عبر كوربورا، وتؤدي إلى تحسين التبرعات.
تعتبر هذه الورقة مشكلة تكيف المجال غير المدعومة من أجل الترجمة الآلية العصبية (NMT)، حيث نفترض الوصول إلى نص أحادي فقط إما في المصدر أو اللغة المستهدفة في المجال الجديد. نقترح طريقة اختيار البيانات عبر اللغات لاستخراج الجمل داخل المجال في جانب اللغة المفقودة من كوربوس أحادية الأجل عام كبيرة. تقوم طريقةنا المقترحة بتدريب طبقة تكيفية على رأس بيرتف متعدد اللغات من خلال التعلم المتعرج عن تعايز التمثيل بين المصدر واللغة المستهدفة. ثم يتيح ذلك تحويل قابلية تحويل المجال بين اللغات بطريقة طلقة صفرية. بمجرد اكتشاف البيانات داخل المجال من قبل المصنف، يتم بعد ذلك تكييف نموذج NMT بالمجال الجديد من خلال مهام الترجمة التعلم المشتركة ومهام التمييز بين المجال. نقيم طريقة اختيار بياناتنا عبر اللغات لدينا على NMT عبر خمسة مجالات متنوعة في ثلاث أزواج لغوية، وكذلك سيناريو في العالم الحقيقي للترجمة Covid-19. تظهر النتائج أن أسلوبنا المقترح تتفوق على خطوط خطوط خطوط اختيار الاختيار الأخرى تصل إلى +1.5 درجة بلو.
أصبح الكشف عن اللغة المسيئة أداة مهمة لزراعة منصات آمنة عبر الإنترنت.نحن نبحث في تفاعل جودة التوضيحية وأداء المصنف.نحن نستخدم مخطط توضيحي جديد وحبوس جديد يتيح لنا التمييز بين اللغة المسيئة والاستخدامات العامية للغالبية غير المقصود ضررا.تظهر نتائجنا م يلا من العمال الحشد للإفراط في استخدام الفئة المسيئة، مما يخلق توازن فئة غير واقعية ويؤثر على دقات التصنيف.نحقق أيضا في طرق مختلفة للتمييز بين الإساءة الصريحة والمنامية وإظهار النهج القائم على المعجم إما أكثر من الإيذاء أو التقدير نسبة الإساءة الصريحة في مجموعات البيانات.
نظرا لأن النهج القائم على المعجم هو أكثر أناقة علميا، أوضح مكونات الحل وأسهل التعميم إلى التطبيقات الأخرى، توفر هذه الورقة نهجا جديدا للغة الهجومية والكشف عن الكلام على وسائل التواصل الاجتماعي، والتي تجسد معجم من الهجوم الضمني والبريثوإقتصار التعبيرا ت المشروح مع المعلومات السياقية.نظرا لشدة تعليقات وسائل التواصل الاجتماعي المسيئة في البرازيل، وعدم وجود أبحاث باللغة البرتغالية والبرتغالية البرازيلية هي اللغة المستخدمة للتحقق من صحة النماذج.ومع ذلك، قد يتم تطبيق طريقتنا على أي لغة أخرى.تظهر التجارب التي أجراها فعالية النهج المقترح، مما يتفوق على الأساليب الأساسية الحالية للغة البرتغالية.
أظهرت أنظمة الكشف عن اللغة المسيئة الحالية التحيز غير المقصود تجاه ميزات حساسة مثل الجنسية أو الجنس. هذه قضية حاسمة، والتي قد تؤذي الأقليات والجماعات الممثلة تمثيلا ناقصا إذا تم دمج هذه الأنظمة في تطبيقات العالم الحقيقي. في هذه الورقة، نقوم بإنشاء اخ تبارات مخصصة من خلال أداة قائمة المراجعة (Ribeiro et al.، 2020) للكشف عن التحيزات داخل مصنفات اللغة المسيئة للغة الإنجليزية. نقارن سلوك نماذج استنادتين في بيرت، واحد مدرب على مجموعة بيانات الكلام الكراهية العامة والآخر في مجموعة بيانات للكشف عن الحرج. يوضح تقييمنا أنه على الرغم من أن المصنفات القائمة على بيرت تحقق مستويات عالية الدقة على مجموعة متنوعة من مهام معالجة اللغة الطبيعية، فإنها تؤدي بشكل سيء للغاية فيما يتعلق بالإنصاف والتحيز، لا سيما بشأن العينات التي تنطوي على الصور النمطية الضمنية، وتعبيرات عن الكراهية نحو الأقليات والسمات المحمية كما العرق أو الميل الجنسي. نطلق سراح كل من أجهزة الكمبيوتر المحمولة المنفذة لتوسيع اختبارات الإنصاف ومجموعات البيانات الاصطناعية التي يمكن استخدامها لتقييم تنظيم الأنظمة بشكل مستقل عن قائمة المراجعة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا