تلقى الكشف عن اللغة الهجومية (القديم) اهتماما متزايدا بسبب تأثيرها المجتمعي.يوضح العمل الحديث أن الأساليب القائمة على المحولات ثنائية الاتجاه تحصل على أداء مثير للإعجاب في القديم.ومع ذلك، فإن هذه الأساليب تعتمد عادة على مجموعات البيانات القديمة ذات المسمى على نطاق واسع لتدريب النماذج.لمعالجة مسألة ندرة البيانات / التسمية في القديم، في هذه الورقة، نقترح نهج بسيط في مجال تكيف مجال بسيط ولكنه فعال لتدريب المحولات ثنائية الاتجاه.تقدم نهجنا إجراءات التدريب على التكيف (DA) إلى ألبرت، بحيث يمكنها استغلال البيانات المساعدة الفعالة من مجالات المصدر لتحسين الأداء القديم في مجال مستهدف.تظهر النتائج التجريبية على مجموعات البيانات القياسية أن نهجنا، ألبرت (دا)، يحصل على الأداء الحديثة في معظم الحالات.على وجه الخصوص، فإن نهجنا يستفيد بشكل كبير من الدروس الممثلة بشكل كبير وغير مصنوع من الأداء، مع تحسن كبير على ألبرت.
Offensive language detection (OLD) has received increasing attention due to its societal impact. Recent work shows that bidirectional transformer based methods obtain impressive performance on OLD. However, such methods usually rely on large-scale well-labeled OLD datasets for model training. To address the issue of data/label scarcity in OLD, in this paper, we propose a simple yet effective domain adaptation approach to train bidirectional transformers. Our approach introduces domain adaptation (DA) training procedures to ALBERT, such that it can effectively exploit auxiliary data from source domains to improve the OLD performance in a target domain. Experimental results on benchmark datasets show that our approach, ALBERT (DA), obtains the state-of-the-art performance in most cases. Particularly, our approach significantly benefits underrepresented and under-performing classes, with a significant improvement over ALBERT.
المراجع المستخدمة
https://aclanthology.org/
الكشف عن السخرية هو واحد من أفضل المهام الصعبة في تصنيف النص، لا سيما بالنسبة للغة العربية غير الرسمية بالغشاء النحوي والدلي العالي.نقترح أنظمتين تسخير المعرفة من مهام متعددة لتحسين أداء المصنف.تقدم هذه الورقة أنظمة المستخدمة في مشاركتنا إلى المهام ا
أثارت نماذج اللغة المدربة مسبقا مقرها الانتباه مثل GPT-2 تقدما كبيرا لنمذجة حوار نهاية إلى نهاية.ومع ذلك، فإنهم يقدمون أيضا مخاطر كبيرة للحوار الموجهة إلى المهام، مثل عدم وجود أسس المعرفة أو التنوع.لمعالجة هذه القضايا، نقدم أهداف تدريبية معدلة لنموذج
نقترح امتداد منظم لتوليد اللغة الشرطية ذات السياق ثنائي الاتجاه، أو تستقيم "مستوحاة من نظرية الدلالية الإطار.يتم توفير التوجيه من خلال إحدى مناهضين: (1) ضبط النموذج الدقيق، والتكييف مباشرة على الإطارات الرمزية الملاحظة، و (2) امتداد جديد لإزالة فك تش
الهدف من الكشف عن الموقف هو تحديد ما إذا كان مؤلف النص مؤلفا مؤلا، محايد أو ضد هدف محدد. على الرغم من التقدم الجوهري في هذه المهمة، فإن إحدى التحديات المتبقية هي ندرة التعليقات التوضيحية. يستخدم تكبير البيانات بشكل شائع لمعالجة ندرة التوضيحية عن طريق
نمت الاهتمام بتحديد المحتوى الهجومي في وسائل التواصل الاجتماعي بشكل كبير في السنوات الأخيرة.تعامل العمل السابق في الغالب مع التعليقات التوضيحية على مستوى المشاركة.ومع ذلك، فإن تحديد المواقف الهجومية مفيد بطرق عديدة.للمساعدة في التعامل مع هذا التحدي ا