في هذه الورقة نسأل عن تأثير التمثيل الجنساني في البيانات التدريبية على أداء نظام ASR المنتهي للنهاية.نقوم بإنشاء تجربة بناء على Corpus Librispeech و Build 3 تدريبات تدريبية مختلفة تختلف فقط نسبة البيانات التي تنتجها كل فئة جنسانية.نلاحظ أنه إذا كان نظامنا قوي بشكل عام على التوازن بين الجنسين أو عدم التوازن في البيانات التدريبية، إلا أنه يعتمد على الكفاية بين الأفراد الموجودين في مجموعات التدريب والاختبار.
In this paper we question the impact of gender representation in training data on the performance of an end-to-end ASR system. We create an experiment based on the Librispeech corpus and build 3 different training corpora varying only the proportion of data produced by each gender category. We observe that if our system is overall robust to the gender balance or imbalance in training data, it is nonetheless dependant of the adequacy between the individuals present in the training and testing sets.
المراجع المستخدمة
https://aclanthology.org/
يتم تشفير المعرفة البشرية بشكل جماعي في حوالي 6500 لغة تحدثت في جميع أنحاء العالم، لكنها لا توزع بنفس القدر من اللغات.وبالتالي، بالنسبة لنظم الإجابة على الأسئلة التي تسعى للحصول على المعلومات (QA) لخدمة مكبرات الصوت بشكل كاف من جميع اللغات، فإنها تحت
في الوقت الحاضر، تستخدم منصات وسائل التواصل الاجتماعي نماذج التصنيف للتعامل مع خطاب الكراهية واللغة المسيئة.مشكلة هذه النماذج هي ضعفها للحيز.شكل منتشر من التحيز في خطاب الكراهية ومجموعات البيانات اللغوية المسيئة هو التحيز الهندي الناجم عن التصور النف
التدريب نماذج لغة كبيرة يمكن أن تستهلك كمية كبيرة من الطاقة.نفترض أن تكوين نموذج اللغة يؤثر على استهلاكها في مجال الطاقة، وأن هناك مجالا لتحسين استهلاك الطاقة في نماذج اللغة الكبيرة الحديثة.للتحقيق في هذه المطالبات، نقدم عامل استهلاك الطاقة في الوظيف
يناقش الجنس على نطاق واسع في سياق المهام اللغوية وعند فحص الصور النمطية الناتجة عن نماذج اللغة.ومع ذلك، تعامل المناقشات الحالية في المقام الأول بين الجنسين باعتبارها ثنائية، والتي يمكن أن تديم الأضرار مثل المحور الدوري للهويات الجنسية غير الثنائية.هذ
نظرا لأن الترجمة الآلية (MT) أصبحت أكثر قوة بشكل متزايد، والتي يمكن الوصول إليها، واستفادتها، فقد نمت إمكانات إدامة التحيز إلى جانب تقدمها.في حين تمت دراسة المؤشرات العلنية للحيز في الترجمة الآلية، فإننا نجادل بأن التحيزات السرية تعرض مشكلة ترسيخها.م