وقد وجدت التقييمات المستهدفة أن أنظمة الترجمة الآلية غالبا ما تنتج بين الجنسين غير الصحيحين في الترجمات، حتى عندما يكون الجنس واضحا من السياق.علاوة على ذلك، هذه الترجمات الجنسية غير الصحيحة لديها القدرة على تعكس أو تضخيم التحيزات الاجتماعية.نقترح التدريب الذاتي المرشح بين الجنسين (GFST) لتحسين دقة الترجمة من النوع الاجتماعي على المدخلات الجنسية التي لا لبس فيها.يستخدم نهج GFST لدينا مصدر أحادي طيور مصدر ونموذج أولي لإنشاء شركة موازية زائفة خاصة بالجنسين يتم تصفيتها ثم يتم إضافتها إلى بيانات التدريب.نقيم GFST على الترجمة من الإنجليزية إلى خمس لغات، ويجد أنها تحسن دقة الجنس دون إتلاف جودة عامة.نعرض أيضا صلاحية GFST على العديد من الإعدادات التجريبية، بما في ذلك إعادة التدريب من الصفر، والضبط الجميل، والتحكم في التوازن بين الجنسين للبيانات، والترجمة الأمامية، والترجمة الخلفي.
Targeted evaluations have found that machine translation systems often output incorrect gender in translations, even when the gender is clear from context. Furthermore, these incorrectly gendered translations have the potential to reflect or amplify social biases. We propose gender-filtered self-training (GFST) to improve gender translation accuracy on unambiguously gendered inputs. Our GFST approach uses a source monolingual corpus and an initial model to generate gender-specific pseudo-parallel corpora which are then filtered and added to the training data. We evaluate GFST on translation from English into five languages, finding that it improves gender accuracy without damaging generic quality. We also show the viability of GFST on several experimental settings, including re-training from scratch, fine-tuning, controlling the gender balance of the data, forward translation, and back-translation.
المراجع المستخدمة
https://aclanthology.org/
سهلت تقنية التكنولوجيا (MT) عن مهامنا اليومية من خلال توفير اختصارات يمكن الوصول إليها لجمع المعلومات والمعالجة والتواصل.ومع ذلك، يمكن أن تعاني من التحيزات التي تضر المستخدمين والمجتمع ككل.كحافظ جديد نسبيا للاستفسار، لا تزال دراسات التحيز بين الجنسين
حققت الترجمة الآلية العصبية غير الخاضعة للرقابة (UNMT) التي تعتمد فقط على Glassive Monolingual Corpora نتائج ملحوظة في العديد من مهام الترجمة.ومع ذلك، في سيناريوهات العالم الواقعي، لا توجد سورانيا أحادية الأبعاد الضخمة لبعض لغات الموارد المنخفضة للغا
نظرا لأن تكلفة وضع العلامات للوحدات المختلفة في أنظمة الحوار الموجهة نحو المهام (TOD) باهظ الثمن، فإن التحدي الرئيسي هو تدريب وحدات مختلفة بأقل قدر من البيانات المسمى. أظهرت نماذج اللغة المدربة مسبقا مؤخرا، نتائج واعدة واعدة لعدد قليل من التعلم في TO
تتطلب شبكات العصبية العميقة الحديثة من بين الفن بيانات تدريبية ذات صلة واسعة النطاق غالبا ما تكون مكلفة للحصول على أو غير متوفرة للعديد من المهام. لقد ثبت أن الإشراف ضعيف في شكل قواعد خاصة بالمجال مفيدا في مثل هذه الإعدادات لإنشاء بيانات التدريب المس
مع نشر نماذج اللغة بشكل متزايد في العالم الحقيقي، من الضروري معالجة مسألة نزاهة مخرجاتها. غالبا ما تعتمد كلمة تضمين تمثيلات نماذج اللغة هذه ضمنيا ارتباطات غير مرغوب فيها تشكل تحيزا اجتماعيا داخل النموذج. تطرح طبيعة اللغات بين الجنسين مثل الهندية مشكل