ترغب بنشر مسار تعليمي؟ اضغط هنا

التحقيق في تأثير التمثيل الجنساني في بيانات تدريب ASR: دراسة حالة عن Libispeech

Investigating the Impact of Gender Representation in ASR Training Data: a Case Study on Librispeech

233   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة نسأل عن تأثير التمثيل الجنساني في البيانات التدريبية على أداء نظام ASR المنتهي للنهاية.نقوم بإنشاء تجربة بناء على Corpus Librispeech و Build 3 تدريبات تدريبية مختلفة تختلف فقط نسبة البيانات التي تنتجها كل فئة جنسانية.نلاحظ أنه إذا كان نظامنا قوي بشكل عام على التوازن بين الجنسين أو عدم التوازن في البيانات التدريبية، إلا أنه يعتمد على الكفاية بين الأفراد الموجودين في مجموعات التدريب والاختبار.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يتم تشفير المعرفة البشرية بشكل جماعي في حوالي 6500 لغة تحدثت في جميع أنحاء العالم، لكنها لا توزع بنفس القدر من اللغات.وبالتالي، بالنسبة لنظم الإجابة على الأسئلة التي تسعى للحصول على المعلومات (QA) لخدمة مكبرات الصوت بشكل كاف من جميع اللغات، فإنها تحت اج إلى تشغيل عبر المقلوب.في هذا العمل، نحقق في إمكانات نماذج اللغة المسبقة للحداجات متعددة اللغات على QA عبر اللغات.نجد أن محاذاة التمثيلات الصافية عبر اللغات التي تحتوي على خطوة Finetuning Post-Hoc تؤدي عموما إلى تحسين الأداء.نحن بالإضافة إلى ذلك التحقيق في تأثير حجم البيانات بالإضافة إلى اختيار اللغة في هذه الخطوة الدقيقة هذه، أيضا إطلاق مجموعة بيانات لتقييم أنظمة QA عبر اللغات.
في الوقت الحاضر، تستخدم منصات وسائل التواصل الاجتماعي نماذج التصنيف للتعامل مع خطاب الكراهية واللغة المسيئة.مشكلة هذه النماذج هي ضعفها للحيز.شكل منتشر من التحيز في خطاب الكراهية ومجموعات البيانات اللغوية المسيئة هو التحيز الهندي الناجم عن التصور النف سي للتعليق وتعقيد مهمة الشرح.في ورقتنا، نقوم بتطوير مجموعة من الأساليب لقياس التحيز العنافي في مجموعات البيانات اللغوية المسيئة وتحديد وجهات نظر مختلفة باللغة المسيئة.نحن نطبق هذه الأساليب إلى أربع مجموعات بيانات مختلفة للغة المسيئة.يدعم نهجنا المقترح عمليات التوضيحية لهذه مجموعات البيانات والبحوث المستقبلية التي تتناول وجهات نظر مختلفة حول تصور اللغة المسيئة.
التدريب نماذج لغة كبيرة يمكن أن تستهلك كمية كبيرة من الطاقة.نفترض أن تكوين نموذج اللغة يؤثر على استهلاكها في مجال الطاقة، وأن هناك مجالا لتحسين استهلاك الطاقة في نماذج اللغة الكبيرة الحديثة.للتحقيق في هذه المطالبات، نقدم عامل استهلاك الطاقة في الوظيف ة الموضوعية، واستكشاف مجموعة النماذج وتكوينات HyperParameter التي تؤثر على الطاقة.نحدد عوامل تكوين متعددة يمكن أن تقلل من استهلاك الطاقة أثناء التدريب على نموذج اللغة مع الحفاظ على جودة النموذج.
يناقش الجنس على نطاق واسع في سياق المهام اللغوية وعند فحص الصور النمطية الناتجة عن نماذج اللغة.ومع ذلك، تعامل المناقشات الحالية في المقام الأول بين الجنسين باعتبارها ثنائية، والتي يمكن أن تديم الأضرار مثل المحور الدوري للهويات الجنسية غير الثنائية.هذ ه الأضرار مدفوعة بالتحيزات النموذجية ومجموعات البيانات، والتي هي عواقب عدم الاعتراف بعدم الاعتراف بعدم الاعتراف بعدم الاعتراف بالعقاب غير الثنائية في المجتمع.في هذه الورقة، نوضح تعقيد الجنس واللغة حولها، ومسح الأشخاص غير الثنائيين لفهم الأضرار المرتبطة بمعاملة الجنس باعتبارها ثنائية في تكنولوجيات اللغة الإنجليزية.كما نقوم بالتفصيل كيف تمثيل اللغات الحالية (على سبيل المثال، قفاز، بيرت)، وإدامة هؤلاء الأضرار والتحديات ذات الصلة التي يجب الاعتراف بها ومعالجتها للتمثيلات بتشفير المعلومات الجنسانية بشكل قاطع.
نظرا لأن الترجمة الآلية (MT) أصبحت أكثر قوة بشكل متزايد، والتي يمكن الوصول إليها، واستفادتها، فقد نمت إمكانات إدامة التحيز إلى جانب تقدمها.في حين تمت دراسة المؤشرات العلنية للحيز في الترجمة الآلية، فإننا نجادل بأن التحيزات السرية تعرض مشكلة ترسيخها.م ن خلال استخدام اللغة المحايدة بين الجنسين اللغة التركية واللغة الجنسية الإنجليزية، ندرس حالات التحيز بين الجنسين العلني والسرية في نماذج MT.على وجه التحديد، نقدم طريقة للتحقيق في العلامات الجنسانية غير المتماثلة.نقوم أيضا بتقييم التحيز في إسناد الشخصية وفحص الصور النمطية المهنية والشخصية من خلال مؤشرات التحيز العلنية في طرازات MT.يستكشف عملنا طبقة أعمق من التحيز في طرازات MT ويوضح الحاجة المستمرة لمنهجية متعددة التخصصات اللغوية في تطوير نموذج MT.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا