الخلل من الطبقة هو تحد مشترك في العديد من مهام NLP، ولديه اتصالات واضحة إلى التحيز، في هذا التحيز في البيانات التدريبية يؤدي غالبا إلى دقة أعلى بالنسبة لمجموعات الأغلبية على حساب مجموعات الأقليات.ومع ذلك، كان هناك تقليديا قطع اتصال بين البحث في التعلم المتوازن في الفئة والتخفيف من التحيز، ولديه مؤخرا فقط تم النظر في اثنين من خلال عدسة مشتركة.في هذا العمل، نقيم أساليب التعلم الطويلة ذات الذيل الطويل لتغريد المعنويات وتصنيف الاحتلال، وتوسيع نهج قائم على الهامش مع طرق لفرض الإنصاف.نعرض تجريبيا من خلال تجارب محكومة أن الأساليب المقترحة تساعد في تخفيف كل من الخلل في الطبقة والتحيزات الديموغرافية.
Class imbalance is a common challenge in many NLP tasks, and has clear connections to bias, in that bias in training data often leads to higher accuracy for majority groups at the expense of minority groups. However there has traditionally been a disconnect between research on class-imbalanced learning and mitigating bias, and only recently have the two been looked at through a common lens. In this work we evaluate long-tail learning methods for tweet sentiment and occupation classification, and extend a margin-loss based approach with methods to enforce fairness. We empirically show through controlled experiments that the proposed approaches help mitigate both class imbalance and demographic biases.
المراجع المستخدمة
https://aclanthology.org/
أظهرت أنظمة الكشف عن اللغة المسيئة الحالية التحيز غير المقصود تجاه ميزات حساسة مثل الجنسية أو الجنس. هذه قضية حاسمة، والتي قد تؤذي الأقليات والجماعات الممثلة تمثيلا ناقصا إذا تم دمج هذه الأنظمة في تطبيقات العالم الحقيقي. في هذه الورقة، نقوم بإنشاء اخ
توفر الجداول معرفة قيمة يمكن استخدامها للتحقق من العبارات النصية. في حين أن عددا من الأعمال قد نظر في التحقق من الحقائق القائم على الطاولة، فإن المحاذاة المباشرة للبيانات الجذابية مع الرموز في البيانات النصية نادرا ما توفرها. علاوة على ذلك، فإن تدريب
حقق التعلم التلوي نجاحا كبيرا في الاستفادة من المعرفة المستفادة التاريخية لتسهيل عملية التعلم المهمة الجديدة.ومع ذلك، فإن تعلم معرفة المهام التاريخية، التي اعتمدتها خوارزميات التعلم التلوي الحالية، قد لا تعميم بشكل جيد للاختبار المهام عندما لا تكون م
في حين أن الأداء التنبئي لمحطات التبعية الإحصائية الحديثة يعتمد بشدة على توافر بيانات Treebank المشروح باهظة الثمن، إلا أن جميع التعليقات التعليقات التوضيحية تسهم على قدم المساواة في تدريب المحللين.في هذه الورقة، نحاول تقليل عدد الأمثلة المسماة اللاز
على عكس النص المنظم جيدا، مثل التقارير الإخبارية ومقالات الموسوعة، غالبا ما يأتي محتوى الحوار من محاورين أو أكثر، وتبادل المعلومات مع بعضها البعض. في مثل هذا السيناريو، يمكن أن يختلف موضوع المحادثة عند التقدم والمعلومات الأساسية لموضوع معين في كثير م