يمكن أن تسهم التحيزات المحتملة بين الجنسين الموجودة في محتوى ويكيبيديا في السلوكيات المتحيزة في مجموعة متنوعة من أنظمة NLP المصب.ومع ذلك، فإن الجهود المبذولة لفهم عدم المساواة في تصوير النساء والرجال تحدث في ويكيبيديا ركزت حتى الآن فقط على السيرة الذاتية *، مما يترك سؤالا عن عدد المرات التي تحدث فيها مثل هذه الأنماط الضارة في مواضيع أخرى.في هذه الورقة، نحقق في عدم التباين المرتبطة بنوع الجنس في عناوين ويكيبيديا من * جميع المجالات *.نقوم بتقييم أنه لمدة نصف المقالات المرتبطة بنوع الجنس، أي مقالات مع كلمات مثل * المرأة * أو * ذكر * في ألقابه، نظيرات متناظرة تصف نفس مفهوم الجنس الآخر (وبشكل بوضوح قائلا في عناوينهم)وبعدمن بين القضايا المعالجة المتبقية، فإن الغالبية العظمى من المقالات تتعلق بالمشكلات الرياضية والاجتماعية ذات الصلة.نحن نقدم نظرة ثاقبة حول كيفية التأثير على هذه عدم التماثل في مكونات ويكيبيديا الأخرى واقتراح الخطوات نحو تقليل تواتر الأنماط المرصودة.
Potential gender biases existing in Wikipedia's content can contribute to biased behaviors in a variety of downstream NLP systems. Yet, efforts in understanding what inequalities in portraying women and men occur in Wikipedia focused so far only on *biographies*, leaving open the question of how often such harmful patterns occur in other topics. In this paper, we investigate gender-related asymmetries in Wikipedia titles from *all domains*. We assess that for only half of gender-related articles, i.e., articles with words such as *women* or *male* in their titles, symmetrical counterparts describing the same concept for the other gender (and clearly stating it in their titles) exist. Among the remaining imbalanced cases, the vast majority of articles concern sports- and social-related issues. We provide insights on how such asymmetries can influence other Wikipedia components and propose steps towards reducing the frequency of observed patterns.
المراجع المستخدمة
https://aclanthology.org/
مع نشر نماذج اللغة بشكل متزايد في العالم الحقيقي، من الضروري معالجة مسألة نزاهة مخرجاتها. غالبا ما تعتمد كلمة تضمين تمثيلات نماذج اللغة هذه ضمنيا ارتباطات غير مرغوب فيها تشكل تحيزا اجتماعيا داخل النموذج. تطرح طبيعة اللغات بين الجنسين مثل الهندية مشكل
يمثل عدم المساواة بين الجنسين خسارة كبيرة في الإمكانات البشرية وإدامة ثقافة العنف، وارتفاع الفجوات في مجال الأجور بين الجنسين، وعدم وجود تمثيل المرأة في المناصب العليا والقيادية. يتم استخدام التطبيقات المدعومة من الذكاء الاصطناعي (AI) بشكل متزايد في
تعد أنظمة معالجة اللغة الطبيعية (NLP) في قلب العديد من أنظمة صنع القرار الآلي الحرجة التي تجعل توصيات حاسمة حول عالمنا في المستقبل.تم دراسة التحيز بين الجنسين في NLP جيدا باللغة الإنجليزية، لكنها كانت أقل دراستها بلغات أخرى.في هذه الورقة، تضم فريقا ب
يؤثر البحث على الإنترنت على إدراك الناس في العالم، وبالتالي فإن التخفيف من التحيزات في نتائج البحث ونماذج التعلم العادلة أمر حتمي للجيدة الاجتماعية.نحن ندرس تحيز جنساني فريد من نوعه في البحث في الصورة في هذا العمل: غالبا ما تكون صور البحث في كثير من
تعلم نماذج اللغة المدربة مسبقا تحيزات ضارة اجتماعيا من كورسا التدريب الخاصة بهم، وقد تكرر هذه التحيزات عند استخدامها للجيل.ندرس التحيزات الجنسانية المرتبطة بطل الرواية في القصص الناتجة النموذجية.قد يتم التعبير عن هذه التحيزات إما صراحة (لا تستطيع الم