تمكن الترجمة الآلية العصبية متعددة اللغات (NMT) نموذج واحد لخدمة جميع اتجاهات الترجمة، بما في ذلك تلك التي هي غير مرئية أثناء التدريب، I.E. Zero-Shot الترجمة. على الرغم من أن النماذج الحالية جذابة من الناحية النظرية غالبا ما تنتج ترجمات منخفضة الجودة - لا تفشل عادة في إنتاج مخرجات باللغة المستهدفة الصحيحة. في هذا العمل، نلاحظ أن الترجمة المستهلكة المستهدفة هي المهيمنة حتى في أنظمة قوية متعددة اللغات، تدربت على كورسا متعددة اللغات الضخمة. لمعالجة هذه المشكلة، نقترح نهج مشترك لتنظيم نماذج NMT على مستوى التمثيل ومستوى التدرج. في مستوى التمثيل، نستفيد مهمة التنبؤ باللغة المستهدفة المساعدة لتنظيم مخرجات فك ترميز الكفر للاحتفاظ بمعلومات حول اللغة المستهدفة. عند مستوى التدرج، نستفيد كمية صغيرة من البيانات المباشرة (بآلاف أزواج الجملة) لتنظيم تدرجات النماذج. توضح نتائجنا أن نهجنا فعال للغاية في حد سواء تقليل حوادث الترجمة المستهدفة وتحسين أداء الترجمة الصفرية بواسطة +5.59 و +10.38 بلو على مجموعات بيانات WMT و OPUS على التوالي. علاوة على ذلك، تظهر التجارب أن طريقتنا تعمل أيضا بشكل جيد عندما لا يتوفر كمية صغيرة من البيانات المباشرة.
Multilingual Neural Machine Translation (NMT) enables one model to serve all translation directions, including ones that are unseen during training, i.e. zero-shot translation. Despite being theoretically attractive, current models often produce low quality translations -- commonly failing to even produce outputs in the right target language. In this work, we observe that off-target translation is dominant even in strong multilingual systems, trained on massive multilingual corpora. To address this issue, we propose a joint approach to regularize NMT models at both representation-level and gradient-level. At the representation level, we leverage an auxiliary target language prediction task to regularize decoder outputs to retain information about the target language. At the gradient level, we leverage a small amount of direct data (in thousands of sentence pairs) to regularize model gradients. Our results demonstrate that our approach is highly effective in both reducing off-target translation occurrences and improving zero-shot translation performance by +5.59 and +10.38 BLEU on WMT and OPUS datasets respectively. Moreover, experiments show that our method also works well when the small amount of direct data is not available.
References used
https://aclanthology.org/
Multilingual neural machine translation models typically handle one source language at a time. However, prior work has shown that translating from multiple source languages improves translation quality. Different from existing approaches on multi-sou
Developing a unified multilingual model has been a long pursuing goal for machine translation. However, existing approaches suffer from performance degradation - a single multilingual model is inferior to separately trained bilingual ones on rich-res
Can pre-trained BERT for one language and GPT for another be glued together to translate texts? Self-supervised training using only monolingual data has led to the success of pre-trained (masked) language models in many NLP tasks. However, directly c
Neural machine translation based on bilingual text with limited training data suffers from lexical diversity, which lowers the rare word translation accuracy and reduces the generalizability of the translation system. In this work, we utilise the mul
Low-resource Multilingual Neural Machine Translation (MNMT) is typically tasked with improving the translation performance on one or more language pairs with the aid of high-resource language pairs. In this paper and we propose two simple search base