توليد البيانات المعززة بين الجنسين ل NLP


الملخص بالعربية

التحيز بين الجنسين هو حدوث متكرر في التطبيقات القائمة على البرامج الوطنية للتنمية الوطنية، وخاصة وضوحا باللغات التي يتم تنشيطها بين الجنسين. يمكن أن تظهر التحيز من خلال جمعيات بعض الصفات وتحريك الأسماء مع الجنس الطبيعي للإرازات، ولكن أيضا بسبب الترددات الجنسانية النحوية غير الموازنة من الكلمات المصدرة. يصبح هذا النوع من التحيز أكثر وضوحا في توليد ينصوصات التحدث حيث لا يتم تحديد النوع الاجتماعي داخل الجملة، لأن معظم تطبيقات NLP الحالية لا تزال تعمل على سياق مستوى الجملة. كخطوة نحو NLP أكثر شمولية، تقترح هذه الورقة نهجا تلقائيا وعموما إعادة كتابة جمل محادثة قصيرة. يمكن تطبيق طريقة إعادة كتابة على الجمل التي، دون سياق خارجي، لديها بدائل مكافئة متعددة من حيث الجنس. يمكن تطبيق الطريقة على إنشاء مخرجات متوازنة بين الجنسين وكذلك لإنشاء بيانات تدريب متوازنة بين الجنسين. يعتمد النهج المقترح على نظام ترجمة آلية عصبية مدربة على ترجمة "من نوع جنسي إلى آخر. إظهار كل من التحليل الأوتوماتيكي واليدوي للنهج النتائج الواعدة فيما يتعلق بالجيل التلقائي من البدائل الجنسانية لجمل المحادثة باللغة الإسبانية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث