نحو فهم شامل وتقييم دقيق للتحيزات المجتمعية في المحولات المدربة مسبقا


الملخص بالعربية

وقد مكن سهولة الوصول إلى المحولات المدربين مسبقا المطورين إلى الاستفادة من نماذج اللغة واسعة النطاق لبناء تطبيقات مثيرة لمستخدميها.في حين توفر هذه النماذج المدربة مسبقا نقاط انطلاق مريحة للباحثين والمطورين، فهناك القليل من النظر في التحيزات المجتمعية التي تم التقاطها داخل هذه النموذج المخاطرة بإدانة التحيزات العنصرية والجنسية وغيرها من التحيزات الضارة عند نشر هذه النماذج على نطاق واسع.في هذه الورقة، نحقق في تنظيم النوع الاجتماعي والعنصري عبر النماذج اللغوية المدربة مسبقا في كل مكان، بما في ذلك GPT-2، XLNet، Bert، روبرتا، ألبرت والتقطير.نحن نقيم التحيز داخل المحولات المدربة مسبقا باستخدام ثلاثة مقاييس: Weat، احتمال التسلسل، وتصنيف الضمير.نستنتج مع تجربة توضح عدم فعالية تقنيات تضمين الكلمات، مثل Weat، مما يشير إلى الحاجة إلى اختبار التحيز الأكثر قوة في المحولات.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث