مشكلة الترجمة المختبرة: مشكلة Denoising UNMT


الملخص بالعربية

في هذه الورقة، نحدد نوعا مثيرا للاهتمام من الخطأ في إخراج أنظمة الترجمة الآلية العصبية غير الخاضعة للكشف عنها مثل Undreamt1. نشير إلى نوع الخطأ هذا كمحالة ترجمة مدخبة. نلاحظ أن نماذج UNMT التي تستخدم ضوضاء خلط ورق اللعب الكلمة (كما هو الحال في حالة UNTreamt) يمكن أن تولد كلمات صحيحة ولكنها تفشل في غرزة معا لتشكيل العبارات. نتيجة وكلمات الجملة المترجمة تبدو سارعت وانخفاض بلو. نحن نفترض أن السبب وراء مشكلة الترجمة المخفوقة هي "خلط الضوضاء" التي يتم تقديمها في كل جملة مدخلات كاستراتيجية دنيوية. لاختبار فرضيتنا ونحن نجيب من خلال إعادة تدريب نماذج بعثة الأمم المتحدة في غول الصين نقوم بتوقف عن تدريب نموذج Denoising UNMT بعد قررت التكرارات مسبقا واستئناف التدريب من أجل التكرارات المتبقية - أي رقم هو أيضا قررت مسبقا - باستخدام الجملة الأصلية كمدخل دون إضافة أي ضجيج. يحقق حلنا المقترح نماذج UNMT تحسين الأداء التي تتدرب تقليديا. نوضح هذه المكاسب الأداء في أربع أزواج ولغوية وبيزن. والإنجليزية-الفرنسية والإنجليزية والألمانية والإنجليزية-الإسبانية والبنجابية الهندية. يوضح تحليلنا النوعي والكمي أن استراتيجية إعادة التدريب يساعد على تحقيق محاذاة أفضل كما لوحظ من خلال الاهتمام Heatmap والترجمة الجملية الأفضل وأدى إلى تحسين إحصائيا في درجات بلو.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث