ترغب بنشر مسار تعليمي؟ اضغط هنا

استغلال البيانات المساعدة للكشف عن اللغة الهجومية مع محولات ثنائية الاتجاه

Exploiting Auxiliary Data for Offensive Language Detection with Bidirectional Transformers

646   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تلقى الكشف عن اللغة الهجومية (القديم) اهتماما متزايدا بسبب تأثيرها المجتمعي.يوضح العمل الحديث أن الأساليب القائمة على المحولات ثنائية الاتجاه تحصل على أداء مثير للإعجاب في القديم.ومع ذلك، فإن هذه الأساليب تعتمد عادة على مجموعات البيانات القديمة ذات المسمى على نطاق واسع لتدريب النماذج.لمعالجة مسألة ندرة البيانات / التسمية في القديم، في هذه الورقة، نقترح نهج بسيط في مجال تكيف مجال بسيط ولكنه فعال لتدريب المحولات ثنائية الاتجاه.تقدم نهجنا إجراءات التدريب على التكيف (DA) إلى ألبرت، بحيث يمكنها استغلال البيانات المساعدة الفعالة من مجالات المصدر لتحسين الأداء القديم في مجال مستهدف.تظهر النتائج التجريبية على مجموعات البيانات القياسية أن نهجنا، ألبرت (دا)، يحصل على الأداء الحديثة في معظم الحالات.على وجه الخصوص، فإن نهجنا يستفيد بشكل كبير من الدروس الممثلة بشكل كبير وغير مصنوع من الأداء، مع تحسن كبير على ألبرت.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الكشف عن السخرية هو واحد من أفضل المهام الصعبة في تصنيف النص، لا سيما بالنسبة للغة العربية غير الرسمية بالغشاء النحوي والدلي العالي.نقترح أنظمتين تسخير المعرفة من مهام متعددة لتحسين أداء المصنف.تقدم هذه الورقة أنظمة المستخدمة في مشاركتنا إلى المهام ا لفرعية لورشة معالجة اللغات الطبيعية العربية السادسة (WANLP)؛تحليل السخرية وتحليل المعنويات.المنهجيات الخاصة بنا مدفوعة بفرضية أن التغريدات ذات الشعور السلبي والثغرات السلبية مع محتوى السخرية من غير المرجح أن يكون لها محتوى مسيء، وبالتالي، تؤدي إلى ضبط طراز التصنيف باستخدام كوربوس كبيرة من اللغة المسيئة، عملية التعلم للنموذج للكشف بشكل فعالالمعنويات ومحتويات السخرية.توضح النتائج فعالية نهجنا لمهمة الكشف عن السخرية على مهمة تحليل المعنويات.
أثارت نماذج اللغة المدربة مسبقا مقرها الانتباه مثل GPT-2 تقدما كبيرا لنمذجة حوار نهاية إلى نهاية.ومع ذلك، فإنهم يقدمون أيضا مخاطر كبيرة للحوار الموجهة إلى المهام، مثل عدم وجود أسس المعرفة أو التنوع.لمعالجة هذه القضايا، نقدم أهداف تدريبية معدلة لنموذج اللغة Finetuning، ونحن نوظف تكبير بيانات ضخمة عبر الترجمة الخلفي لزيادة تنوع بيانات التدريب.ندرس إمكانيات الجمع بين البيانات من مصادر مضاعفات تحسين الأداء على مجموعة البيانات المستهدفة.نحن نقيم بعناية مساهماتنا مع كل من الأساليب البشرية والآلية.يتفوق نموذجنا بشكل كبير على خط الأساس على بيانات MultiWoz ويظهر أداء تنافسي مع حالة الفن في كل من التقييم التلقائي والإنساني.
نقترح امتداد منظم لتوليد اللغة الشرطية ذات السياق ثنائي الاتجاه، أو تستقيم "مستوحاة من نظرية الدلالية الإطار.يتم توفير التوجيه من خلال إحدى مناهضين: (1) ضبط النموذج الدقيق، والتكييف مباشرة على الإطارات الرمزية الملاحظة، و (2) امتداد جديد لإزالة فك تش فير العمليات المعجمية المعجمية بشكل متعرز.تؤكد التقييمات التلقائية والبشرية أن الجيل الموجهة للأطر الموجهة يسمح بالتلاعب الصريح في دلالات Infill Inhantics المقصودة، مع الحد الأدنى من الخسارة في الاستئمان من النص الذي تم إنشاؤه الإنسان.تنطبق طرقنا بمرونة على مجموعة متنوعة من سيناريوهات الاستخدام، ونحن نقدم عرض ويب تفاعلي.
الهدف من الكشف عن الموقف هو تحديد ما إذا كان مؤلف النص مؤلفا مؤلا، محايد أو ضد هدف محدد. على الرغم من التقدم الجوهري في هذه المهمة، فإن إحدى التحديات المتبقية هي ندرة التعليقات التوضيحية. يستخدم تكبير البيانات بشكل شائع لمعالجة ندرة التوضيحية عن طريق توليد المزيد من عينات التدريب. ومع ذلك، فإن الجمل المعزولة التي يتم إنشاؤها عن طريق الأساليب الحالية هي إما أقل تنوعا أو غير متسقة مع علامة الهدف والموقف المحدد. في هذه الورقة، صياغة تكبير البيانات للكشف عن الموقف كقوة نمذجة لغة مملحة مشروطة وزيادة مجموعة البيانات من خلال التنبؤ بالكلمة الملثمين المكيفة على كل من سياقها والجملة المساعدة التي تحتوي على معلومات الهدف والسمية. علاوة على ذلك، نقترح طريقة أخرى بسيطة ولكنها فعالة تولد الجملة المستهدفة من خلال استبدال هدف ذكر مع الآخر. تظهر النتائج التجريبية أن أسالكتنا المقترحة تتفوق بشكل كبير على أساليب التكبير السابقة على 11 أهداف.
نمت الاهتمام بتحديد المحتوى الهجومي في وسائل التواصل الاجتماعي بشكل كبير في السنوات الأخيرة.تعامل العمل السابق في الغالب مع التعليقات التوضيحية على مستوى المشاركة.ومع ذلك، فإن تحديد المواقف الهجومية مفيد بطرق عديدة.للمساعدة في التعامل مع هذا التحدي ا لمهم، نقدم MUSES، وهو نظام متعدد اللغات لاكتشاف يمتد الهجومية في النصوص.تتميز MUSES بنماذج مدربة مسبقا، و API بيثون للمطورين، وواجهة سهلة الاستخدام على الويب.يتم تقديم وصف مفصل لمكونات الطين في هذه الورقة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا