تظهر أسماء التردد المنخفض التحيز والتجول في نماذج اللغة السياقية


الملخص بالعربية

نستخدم مجموعة بيانات من الأسماء الأولى الأمريكية مع ملصقات تستند إلى النوع الاجتماعي السائد والمجموعة العرقية لفحص تأثير تواتر Corpus على التقييم والسياق والتشابه إلى التمثيل الأولي والتحيز في Bert و GPT-2 و T5 و XLNet. نظهر أن الأسماء الأكثر في الغالب والأسماء غير البيضاء أقل تواترا في شركة التدريب لهذه النماذج الأربع هذه. نجد أن الأسماء النادرة هي أكثر مماثلة ذاتيا عبر السياقات، مع Rho Spearman بين التردد والتشابه الذاتي بنسبة منخفضة تصل إلى 763. الأسماء النادرة هي أيضا أقل تشبه التمثيل الأولي، مع تشابه RHO ل Spearman بين التردد ومحاذاة النواة الخطية (CKA) للتمثيل الأولي بما يصل إلى .702. علاوة على ذلك، نجد Rho Spearman بين التحيز العنصري وتكرار الاسم في Bert of .492، مما يشير إلى أن أسماء مجموعات الأقليات ذات التردد الأدنى مرتبطون ببراعة. تخضع تمثيل الأسماء النادرة لمعالجة المزيد من المعالجة، ولكنها أكثر مماثلة ذاتيا، مما يشير إلى أن النماذج تعتمد على تمثيل أقل مستنيرة في السياق بأسماء غير شائعة وأسماء الأقليات التي يتم إجاءاتها على عدد أقل من السياقات الملحوظة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث