قياس تحيزات Word Embeddings: ما تدابير التشابه والإحصاءات الوصفية لاستخدامها؟


الملخص بالعربية

تستخدم Word Embeddings على نطاق واسع في معالجة اللغة الطبيعية (NLP) لمجموعة واسعة من التطبيقات. ومع ذلك، فقد ثبت باستمرار أن هذه المدينات تعكس نفس التحيزات البشرية الموجودة في البيانات المستخدمة لتدريبها. معظم مؤشرات التحيز المنصوص عليها للكشف عن تحيز Word Embeddings مؤشرات قائمة على أساس مقياس التشابه الجيبلي. في هذه الدراسة، ندرس آثار تدابير التشابه المختلفة وكذلك التقنيات الوصفية الأخرى أكثر من المتوسط ​​في قياس تحيزات تضمين الكلمات السياقية وغير السياقية. نظهر أن حجم التحيزات المكشوفة في Word Embeddings يعتمد على تدابير الإحصاءات الوصفية والتشابه المستخدمة لقياس التحيز. وجدنا أنه خلال الفئات العشرة من اختبارات جمعية تضمين Word، تكشف مسافة Mahalanobis عن أصغر التحيز، وتكشف مسافة Euclidean عن أكبر تحيز في Word Ageddings. بالإضافة إلى ذلك، تكشف النماذج السياقية عن تحيزات أقل حدة من نماذج تضمين الكلمة غير السياقية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث