يناقش الجنس على نطاق واسع في سياق المهام اللغوية وعند فحص الصور النمطية الناتجة عن نماذج اللغة.ومع ذلك، تعامل المناقشات الحالية في المقام الأول بين الجنسين باعتبارها ثنائية، والتي يمكن أن تديم الأضرار مثل المحور الدوري للهويات الجنسية غير الثنائية.هذه الأضرار مدفوعة بالتحيزات النموذجية ومجموعات البيانات، والتي هي عواقب عدم الاعتراف بعدم الاعتراف بعدم الاعتراف بعدم الاعتراف بالعقاب غير الثنائية في المجتمع.في هذه الورقة، نوضح تعقيد الجنس واللغة حولها، ومسح الأشخاص غير الثنائيين لفهم الأضرار المرتبطة بمعاملة الجنس باعتبارها ثنائية في تكنولوجيات اللغة الإنجليزية.كما نقوم بالتفصيل كيف تمثيل اللغات الحالية (على سبيل المثال، قفاز، بيرت)، وإدامة هؤلاء الأضرار والتحديات ذات الصلة التي يجب الاعتراف بها ومعالجتها للتمثيلات بتشفير المعلومات الجنسانية بشكل قاطع.
Gender is widely discussed in the context of language tasks and when examining the stereotypes propagated by language models. However, current discussions primarily treat gender as binary, which can perpetuate harms such as the cyclical erasure of non-binary gender identities. These harms are driven by model and dataset biases, which are consequences of the non-recognition and lack of understanding of non-binary genders in society. In this paper, we explain the complexity of gender and language around it, and survey non-binary persons to understand harms associated with the treatment of gender as binary in English language technologies. We also detail how current language representations (e.g., GloVe, BERT) capture and perpetuate these harms and related challenges that need to be acknowledged and addressed for representations to equitably encode gender information.
المراجع المستخدمة
https://aclanthology.org/
نقترح أن نقترح Captioner أخبار البصرية، وهو نموذج كيائن كيائن لمهمة تقسيم صورة الأخبار. نقدم أيضا Visual News، وهو معيار واسع النطاق يتكون من أكثر من مليون صورة إخبارية إلى جانب المقالات الإخبارية المرتبطة، وتستياؤ الصور، ومعلومات المؤلف، والبيانات ا
في هذه الورقة نسأل عن تأثير التمثيل الجنساني في البيانات التدريبية على أداء نظام ASR المنتهي للنهاية.نقوم بإنشاء تجربة بناء على Corpus Librispeech و Build 3 تدريبات تدريبية مختلفة تختلف فقط نسبة البيانات التي تنتجها كل فئة جنسانية.نلاحظ أنه إذا كان ن
تعد أنظمة معالجة اللغة الطبيعية (NLP) في قلب العديد من أنظمة صنع القرار الآلي الحرجة التي تجعل توصيات حاسمة حول عالمنا في المستقبل.تم دراسة التحيز بين الجنسين في NLP جيدا باللغة الإنجليزية، لكنها كانت أقل دراستها بلغات أخرى.في هذه الورقة، تضم فريقا ب
تقدم هذه الورقة أدوات ومصادر البيانات التي تم جمعها وأصدرها مشروع Embeddia، بدعم من برنامج الأفق والابتكار في الأفق والابتكار في الاتحاد الأوروبي.تم تقديم الموارد التي تم جمعها للمشاركين في مجموعة متنظمة تنظيم كجزء من Hackashop EACL حول تحليل محتوى و
باستخدام شكل النمذجة ومشابه الكلمة القائمة على المعجم، نجد أن القصص الناتجة عن GPT-3 تظهر العديد من الصور النمطية الجنسانية المعروفة.قصص تم إنشاؤها تصور مواضيع وأوصاف مختلفة اعتمادا على الجنس المتصور GPT-3 من الشخصية في موجه، مع أحرف أنثوية أكثر عرضة