ترغب بنشر مسار تعليمي؟ اضغط هنا

تقييم التحيز بين الجنسين في الترجمة الهندية الإنجليزية

Evaluating Gender Bias in Hindi-English Machine Translation

374   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مع نشر نماذج اللغة بشكل متزايد في العالم الحقيقي، من الضروري معالجة مسألة نزاهة مخرجاتها. غالبا ما تعتمد كلمة تضمين تمثيلات نماذج اللغة هذه ضمنيا ارتباطات غير مرغوب فيها تشكل تحيزا اجتماعيا داخل النموذج. تطرح طبيعة اللغات بين الجنسين مثل الهندية مشكلة إضافية في تقدير التحيز والتخفيف من التحيز، بسبب التغيير في شكل الكلمات في الجملة، بناء على جنس الموضوع. بالإضافة إلى ذلك، هناك أعمال متناثرة تتم في مجال أنظمة القياس والدولي لغات Instan. في عملنا، نحاول تقييم وتحديد التحيز بين الجنسين داخل نظام الترجمة الآلية الهندية-الإنجليزية. نقوم بتنفيذ إصدار تعديل من متري TGBI الموجود على أساس الاعتبارات النحوية له الهندية. قارننا أيضا وتتناقض مع قياسات التحيز الناتجة عن مقاييس متعددة للمظلات المدربة مسبقا وتلك التي تعلمتها نموذج الترجمة الآلي لدينا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الترجمة الآلية تؤدي الترجمة الآلية من لغة طبيعية إلى أخرى. تكمن ترجمة الآلات العصبية بمهارة أحدث في الترجمة الآلية، لكنها تتطلب بيانات تدريبية كافية، وهي مشكلة شديدة لترجمة أزواج لغة الموارد المنخفضة. يتم تقديم مفهوم Multimodal في الترجمة الآلية العص بية (NMT) عن طريق دمج الميزات النصية مع ميزات مرئية لتحسين ترجمة الزوج منخفض الموارد. WAT2021 (ورشة العمل حول الترجمة الآسيوية 2021) تنظم مهمة مشتركة من الترجمة متعددة الوسائط للإنجليزية إلى الهندية. لقد شاركنا نفس الشيء مع اسم الفريق CNLP-NITS-PP في طلبين: متعددة الوسائط والنصية فقط NMT. يحقق هذا العمل في حقن أزواج العبارة عن طريق نهج تكبير البيانات ويحمل تحسين عملنا السابق في Wat2020 في نفس المهمة في كل من NMT النصي فقط و Multimodal NMT. لقد حققنا المرتبة الثانية على مجموعة اختبار التحدي للغة الإنجليزية إلى الهندية الترجمة متعددة الوسائط حيث تقييم ثنائي اللغة من النتيجة 39.28، درجة التقييم البدياسية بديهية سهلة الاستخدام (RIBES) 0.792097، ومقاييس كفاية الطلاقة (AMFM) 0.830230 على التوالي وبعد
نظرا لأن الترجمة الآلية (MT) أصبحت أكثر قوة بشكل متزايد، والتي يمكن الوصول إليها، واستفادتها، فقد نمت إمكانات إدامة التحيز إلى جانب تقدمها.في حين تمت دراسة المؤشرات العلنية للحيز في الترجمة الآلية، فإننا نجادل بأن التحيزات السرية تعرض مشكلة ترسيخها.م ن خلال استخدام اللغة المحايدة بين الجنسين اللغة التركية واللغة الجنسية الإنجليزية، ندرس حالات التحيز بين الجنسين العلني والسرية في نماذج MT.على وجه التحديد، نقدم طريقة للتحقيق في العلامات الجنسانية غير المتماثلة.نقوم أيضا بتقييم التحيز في إسناد الشخصية وفحص الصور النمطية المهنية والشخصية من خلال مؤشرات التحيز العلنية في طرازات MT.يستكشف عملنا طبقة أعمق من التحيز في طرازات MT ويوضح الحاجة المستمرة لمنهجية متعددة التخصصات اللغوية في تطوير نموذج MT.
يمكن أن تسهم التحيزات المحتملة بين الجنسين الموجودة في محتوى ويكيبيديا في السلوكيات المتحيزة في مجموعة متنوعة من أنظمة NLP المصب.ومع ذلك، فإن الجهود المبذولة لفهم عدم المساواة في تصوير النساء والرجال تحدث في ويكيبيديا ركزت حتى الآن فقط على السيرة الذ اتية *، مما يترك سؤالا عن عدد المرات التي تحدث فيها مثل هذه الأنماط الضارة في مواضيع أخرى.في هذه الورقة، نحقق في عدم التباين المرتبطة بنوع الجنس في عناوين ويكيبيديا من * جميع المجالات *.نقوم بتقييم أنه لمدة نصف المقالات المرتبطة بنوع الجنس، أي مقالات مع كلمات مثل * المرأة * أو * ذكر * في ألقابه، نظيرات متناظرة تصف نفس مفهوم الجنس الآخر (وبشكل بوضوح قائلا في عناوينهم)وبعدمن بين القضايا المعالجة المتبقية، فإن الغالبية العظمى من المقالات تتعلق بالمشكلات الرياضية والاجتماعية ذات الصلة.نحن نقدم نظرة ثاقبة حول كيفية التأثير على هذه عدم التماثل في مكونات ويكيبيديا الأخرى واقتراح الخطوات نحو تقليل تواتر الأنماط المرصودة.
إن دمج طرائق الإدخال المتعددة في نظام الترجمة الآلي (MT) يكتسب شعبية بين الباحثين MT. على عكس مجموعة البيانات المتاحة للجمهور لمهام ترجمة الآلات متعددة الوسائط، حيث تكون التسميات التوضيحية أوصاف صورة قصيرة، توفر التعليق الأخبار وصفا أكثر تفصيلا لمحتو يات الصور. نتيجة لذلك، يتم العثور على العديد من الكيانات المسماة المتعلقة بالأشخاص المحددين والمواقع وما إلى ذلك. في هذه الورقة، يكتسبان مجموعة بيانات أخبار أحادية أحادية الأبعاد التي أبلغت باللغة الإنجليزية والهندية مقترنة بالصور لتوليد كوربوس موازية من اللغة الإنجليزية الهندية الاصطناعية. يستخدم Corpus الموازي لتدريب الترجمة الآلية العصبية باللغة الإنجليزية (NMT) ونظام MMT باللغة الإنجليزية من خلال دمج ميزة الصورة المقترنة مع Corpus الموازي المقابلة. نحن أيضا إجراء تحليل منهجي لتقييم أنظمة MT الإنجليزية-الهندية مع 1) المزيد من البيانات الاصطناعية و 2) عن طريق إضافة البيانات المترجمة إلى الوراء. يؤدي النتيجة لدينا إلى تحسن من حيث درجات BLEU لكل من أنظمة NMT (+8.05) و MMT (+11.03).
يمثل عدم المساواة بين الجنسين خسارة كبيرة في الإمكانات البشرية وإدامة ثقافة العنف، وارتفاع الفجوات في مجال الأجور بين الجنسين، وعدم وجود تمثيل المرأة في المناصب العليا والقيادية. يتم استخدام التطبيقات المدعومة من الذكاء الاصطناعي (AI) بشكل متزايد في العالم الحقيقي لتوفير قرارات نقدية حول من الذي سيتم توظيفه، ومنح قرضا، مقبول في الكلية، إلخ. ومع ذلك، فإن الركائز الرئيسية ل AI ومعالجة اللغة الطبيعية ( تم عرض NLP) وتعلم الجهاز (ML) تعكس وحتى تضخيم التحيزات والقوالب النمطية للجنسين، والتي تورثها أساسا من بيانات التدريب التاريخية. في محاولة لتسهيل تحديد الهوية والتخفيف من التحيز بين الجنسين في نص اللغة الإنجليزية، نطور تصنيفا شاملا للتصنيفات التي تعتمد على أنواع المنحات بين الجنسين التالية: الضمائر العامة، الجنسية، التحيز المهني، التحيز الاستبعاد، والدليل. ونحن نقدم أيضا نظرة عامة على نحو من القاعدة من خلال التحيز بين الجنسين، من أصلها المجتمعي إلى اللغة إلى اللغة. أخيرا، نربط الآثار المجتمعية على التحيز بين الجنسين من النوع (الأنواع) المقابلة في التصنيف المقترح. الدافع الأساسي لعملنا هو المساعدة في تمكين المجتمع الفني لتحديد والتخفيف من التحيزات ذات الصلة من التدريب كورسا لتحسين الإنصاف في أنظمة NLP.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا