ترغب بنشر مسار تعليمي؟ اضغط هنا

تنظيم النوع الاجتماعي في الترجمة الآلية

Gender Bias in Machine Translation

360   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

سهلت تقنية التكنولوجيا (MT) عن مهامنا اليومية من خلال توفير اختصارات يمكن الوصول إليها لجمع المعلومات والمعالجة والتواصل.ومع ذلك، يمكن أن تعاني من التحيزات التي تضر المستخدمين والمجتمع ككل.كحافظ جديد نسبيا للاستفسار، لا تزال دراسات التحيز بين الجنسين في MT تفتقر إلى التماسك.هذا المدافع عن إطار موحد لتخفيف البحوث المستقبلية.تحقيقا لهذه الغاية، نحن: 1) مراجعة النظرة بشكل خطير المفاهيم الحالية للتحيز في ضوء الأفكار النظرية من التخصصات ذات الصلة، 2) تلخص التحليلات السابقة التي تهدف إلى تقييم التحيز بين الجنسين في MT، III) مناقشة استراتيجيات التخفيف المقترحة حتى الآن، والرابع)نحو الاتجاهات المحتملة للعمل في المستقبل.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مع نشر نماذج اللغة بشكل متزايد في العالم الحقيقي، من الضروري معالجة مسألة نزاهة مخرجاتها. غالبا ما تعتمد كلمة تضمين تمثيلات نماذج اللغة هذه ضمنيا ارتباطات غير مرغوب فيها تشكل تحيزا اجتماعيا داخل النموذج. تطرح طبيعة اللغات بين الجنسين مثل الهندية مشكل ة إضافية في تقدير التحيز والتخفيف من التحيز، بسبب التغيير في شكل الكلمات في الجملة، بناء على جنس الموضوع. بالإضافة إلى ذلك، هناك أعمال متناثرة تتم في مجال أنظمة القياس والدولي لغات Instan. في عملنا، نحاول تقييم وتحديد التحيز بين الجنسين داخل نظام الترجمة الآلية الهندية-الإنجليزية. نقوم بتنفيذ إصدار تعديل من متري TGBI الموجود على أساس الاعتبارات النحوية له الهندية. قارننا أيضا وتتناقض مع قياسات التحيز الناتجة عن مقاييس متعددة للمظلات المدربة مسبقا وتلك التي تعلمتها نموذج الترجمة الآلي لدينا.
نظرا لأن الترجمة الآلية (MT) أصبحت أكثر قوة بشكل متزايد، والتي يمكن الوصول إليها، واستفادتها، فقد نمت إمكانات إدامة التحيز إلى جانب تقدمها.في حين تمت دراسة المؤشرات العلنية للحيز في الترجمة الآلية، فإننا نجادل بأن التحيزات السرية تعرض مشكلة ترسيخها.م ن خلال استخدام اللغة المحايدة بين الجنسين اللغة التركية واللغة الجنسية الإنجليزية، ندرس حالات التحيز بين الجنسين العلني والسرية في نماذج MT.على وجه التحديد، نقدم طريقة للتحقيق في العلامات الجنسانية غير المتماثلة.نقوم أيضا بتقييم التحيز في إسناد الشخصية وفحص الصور النمطية المهنية والشخصية من خلال مؤشرات التحيز العلنية في طرازات MT.يستكشف عملنا طبقة أعمق من التحيز في طرازات MT ويوضح الحاجة المستمرة لمنهجية متعددة التخصصات اللغوية في تطوير نموذج MT.
وقد وجدت الأعمال الحديثة دليلا على التحيز بين الجنسين في نماذج من الترجمة الآلية ودقة Aquerence باستخدام مجموعات بيانات التشخيص الاصطناعية في الغالب. في حين أن هذه التحيز الكمي في تجربة خاضعة للرقابة، فإنها غالبا ما تفعل ذلك على نطاق صغير وتتكون في م عظمها من الجمل الاصطناعية، خارج التوزيع. في هذا العمل، نجد أنماط نحوية تشير إلى مهام الدورانية النمطية وغير النمطية (مثل الممرضات الإناث مقابل الراقصين الذكور) في كوربورا من ثلاثة مجالات، مما أدى إلى أول مجموعة بيانات BIAS الجنسية على نطاق واسع من 108 ألفا جمل. نحن نتحقق يدويا من جودة Corpus الخاصة بنا واستخدامها لتقييم التحيز بين الجنسين في نماذج تحليل الأسلحة الأساسية المختلفة ونماذج الترجمة الآلية. نجد أن جميع النماذج المختبرة تميل إلى الإفراط في الاعتماد على الصور النمطية الجنسانية عند تقديمها مع المدخلات الطبيعية، والتي قد تكون ضارة بشكل خاص عند نشرها في النظم التجارية. أخيرا، نظيرنا على أن مجموعة بياناتنا تضفي نفسها على نموذج دقة COMEARCASE، ويجد أن يجدد التحيز على مجموعة مشغولة. تتوفر DataSet ونماذجنا علنا ​​في Github.com/slab-nlp/bug. نأمل أن يحفزون البحوث المستقبلية في تقنيات تخفيف تقييم التقييم بين الجنسين في الإعدادات الواقعية.
وقد وجدت التقييمات المستهدفة أن أنظمة الترجمة الآلية غالبا ما تنتج بين الجنسين غير الصحيحين في الترجمات، حتى عندما يكون الجنس واضحا من السياق.علاوة على ذلك، هذه الترجمات الجنسية غير الصحيحة لديها القدرة على تعكس أو تضخيم التحيزات الاجتماعية.نقترح الت دريب الذاتي المرشح بين الجنسين (GFST) لتحسين دقة الترجمة من النوع الاجتماعي على المدخلات الجنسية التي لا لبس فيها.يستخدم نهج GFST لدينا مصدر أحادي طيور مصدر ونموذج أولي لإنشاء شركة موازية زائفة خاصة بالجنسين يتم تصفيتها ثم يتم إضافتها إلى بيانات التدريب.نقيم GFST على الترجمة من الإنجليزية إلى خمس لغات، ويجد أنها تحسن دقة الجنس دون إتلاف جودة عامة.نعرض أيضا صلاحية GFST على العديد من الإعدادات التجريبية، بما في ذلك إعادة التدريب من الصفر، والضبط الجميل، والتحكم في التوازن بين الجنسين للبيانات، والترجمة الأمامية، والترجمة الخلفي.
تعمل العديد من نماذج NLP على تسلسل الرموز الرموز الفرعية التي تنتجها قواعد التزخم المصنوعة يدويا وخوارزميات التعريفي للكلمة الفرعية.بديل عالمي بسيط هو تمثيل كل نص محوسب كسلسلة من البايتات عبر UTF-8، وضبط الحاجة إلى طبقة تضمين نظرا لأن هناك عدد أقل من أنواع الرمز المميز (256) من الأبعاد.من المستغرب، استبدال طبقة التضمين في كل مكان بتمثيلات ساخنة لكل بايت لا تؤذي الأداء؛تظهر التجارب في الترجمة الآلية بايت إلى بايت من الإنجليزية إلى 10 لغات مختلفة تحسنا ثابتا في بلو، ومستوى الطابع المتنافس وحتى نماذج مستوى الكلمات الفرعية القياسية.يكشف التحقيق الأعمق أن مزيج من نماذج تضمينه مع ترميز مفاتيح المدخلات بمبالغ الرمز إلى التسرب الرمزي، والذي يفيد نماذج بايت إلى بايت بشكل خاص.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا