ترغب بنشر مسار تعليمي؟ اضغط هنا

التمويلية لنماذج الموضوع في الكشف عن لغة الصليب والنباتية

Generalisability of Topic Models in Cross-corpora Abusive Language Detection

335   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتطلب محتوى الوسائط الاجتماعية المتغيرة بسرعة لنماذج الكشف عن إساءة الاستخدام قوية وممتع.ومع ذلك، فإن النماذج الخاضعة للإشراف على أحدث حدوث عرض الأداء المتدهورة عند تقييمها بشأن التعليقات المسيئة التي تختلف عن Training Corpus.نحقق في ما إذا كان أداء النماذج الخاضعة للإشراف للكشف عن إساءة استخدام سوريا يمكن تحسينه من خلال دمج معلومات إضافية من نماذج الموضوع، حيث يمكن أن يستنتج الأخير مخاليط الموضوعات الكامنة من العينات غير المرئية.على وجه الخصوص، نجمع بين المعلومات الموضعية مع التمثيلات من نموذج تم ضبطه لتصنيف التعليقات المسيئة.يكشف تحليل الأداء الخاص بنا أن نماذج الموضوعات قادرة على التقاط الموضوعات المتعلقة بالإساءة التي يمكنها نقلها عبر كوربورا، وتؤدي إلى تحسين التبرعات.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تبلغ نماذج الكشف عن اللغة المسيئة للحكومة الأمريكية أداء كبير في Corpus، ولكن أداء الفضل عند تقييم التعليقات المسيئة التي تختلف عن سيناريو التدريب.نظرا لأن الشروح البشرية ينطوي على وقت وجهد كبير، فإن النماذج التي يمكن أن تتكيف مع التعليقات التي تم جم عها حديثا يمكن أن تكون مفيدة.في هذه الورقة، نحقق في فعالية العديد من نهج تكيف النطاقات غير المدمرة (UDA) لمهمة الكشف عن اللغة المسيئة.بالمقارنة، نقوم بتكييف متغير نموذج BERT، تدربت على تعليقات مسيئة واسعة النطاق، باستخدام طراز لغة ملثم (MLM)يوضح تقييمنا أن نهج UDA تؤدي إلى أداء فرعي الأمثل، في حين أن ضبط الريامة الجميلة لا يتحسن في إعداد العرض.يكشف التحليل المفصل عن حدود نهج UDA ويؤكد على الحاجة إلى بناء طرق تكيف فعالة لهذه المهمة.
من النماذج الإحصائية إلى النماذج العصبية، تم اقتراح مجموعة واسعة من خوارزميات نمذجة الموضوعات في الأدب. ومع ذلك، بسبب تنوع مجموعات البيانات والمقاييس، لم تكن هناك العديد من الجهود لمقارنة أدائها بشكل منهجي على نفس المعايير وتحت نفس الشروط. في هذه الو رقة، نقدم مجموعة مختارة من 9 تقنيات نمذجة موضوعا من حالة الفن التي تعكس تنوع مناهج المهمة، لمحة عامة عن المقاييس المختلفة المستخدمة لمقارنة أدائها، وتحديات إجراء هذه المقارنة. نحن نقيم تجريبيا أداء هذه النماذج على إعدادات مختلفة تعكس مجموعة متنوعة من الظروف الواقعية من حيث حجم مجموعة البيانات وعدد المواضيع وتوزيع الموضوعات، بعد عمليات المعالجة والتتقييم المتطابقة. باستخدام كل من المقاييس التي تعتمد على الخصائص الجوهرية لمجموعات البيانات (مقاييس الاتساق المختلفة)، بالإضافة إلى المعرفة الخارجية (تضييع Word Adgeddings وموضوع الحقيقة)، تكشف تجاربنا عدة أوجه القصور فيما يتعلق بالممارسات المشتركة في تقييم نماذج الموضوعات.
نماذج الموضوع العصبي هي النماذج العصبية الأخيرة تهدف إلى استخراج الموضوعات الرئيسية من مجموعة من الوثائق.عادة ما تكون مقارنة هذه النماذج محدودة لأن فرط الدم محتجز ثابتة.في هذه الورقة، نقدم تحليلا تجريبي ومقارنة بين نماذج الموضوعات العصبية من خلال الع ثور على HyperParameters المثلى لكل نموذج لأربعة تدابير أداء مختلفة تبني تحسين بايزي هدف واحد.هذا يسمح لنا بتحديد متانة نموذج موضوع للعديد من مقاييس التقييم.كما أننا تظهر بشكل تجريبي تأثير طول الوثائق على مختلف المقاييس الأمثل واكتشف مقاييس التقييم الموجودة في صراع أو اتفاق مع بعضنا البعض.
أصبح الكشف عن اللغة المسيئة أداة مهمة لزراعة منصات آمنة عبر الإنترنت.نحن نبحث في تفاعل جودة التوضيحية وأداء المصنف.نحن نستخدم مخطط توضيحي جديد وحبوس جديد يتيح لنا التمييز بين اللغة المسيئة والاستخدامات العامية للغالبية غير المقصود ضررا.تظهر نتائجنا م يلا من العمال الحشد للإفراط في استخدام الفئة المسيئة، مما يخلق توازن فئة غير واقعية ويؤثر على دقات التصنيف.نحقق أيضا في طرق مختلفة للتمييز بين الإساءة الصريحة والمنامية وإظهار النهج القائم على المعجم إما أكثر من الإيذاء أو التقدير نسبة الإساءة الصريحة في مجموعات البيانات.
أظهرت أنظمة الكشف عن اللغة المسيئة الحالية التحيز غير المقصود تجاه ميزات حساسة مثل الجنسية أو الجنس. هذه قضية حاسمة، والتي قد تؤذي الأقليات والجماعات الممثلة تمثيلا ناقصا إذا تم دمج هذه الأنظمة في تطبيقات العالم الحقيقي. في هذه الورقة، نقوم بإنشاء اخ تبارات مخصصة من خلال أداة قائمة المراجعة (Ribeiro et al.، 2020) للكشف عن التحيزات داخل مصنفات اللغة المسيئة للغة الإنجليزية. نقارن سلوك نماذج استنادتين في بيرت، واحد مدرب على مجموعة بيانات الكلام الكراهية العامة والآخر في مجموعة بيانات للكشف عن الحرج. يوضح تقييمنا أنه على الرغم من أن المصنفات القائمة على بيرت تحقق مستويات عالية الدقة على مجموعة متنوعة من مهام معالجة اللغة الطبيعية، فإنها تؤدي بشكل سيء للغاية فيما يتعلق بالإنصاف والتحيز، لا سيما بشأن العينات التي تنطوي على الصور النمطية الضمنية، وتعبيرات عن الكراهية نحو الأقليات والسمات المحمية كما العرق أو الميل الجنسي. نطلق سراح كل من أجهزة الكمبيوتر المحمولة المنفذة لتوسيع اختبارات الإنصاف ومجموعات البيانات الاصطناعية التي يمكن استخدامها لتقييم تنظيم الأنظمة بشكل مستقل عن قائمة المراجعة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا