توضح هذه الورقة نهجنا للمهمة المشتركة على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع في المؤتمر السادس حول الترجمة الآلية (WMT-21).في هذا العمل، نهدف إلى بناء نظام ترجمة متعددة اللغات واحدا مع فرضية أن تمثيل عالمي عبر اللغة يؤدي إلى أداء ترجمة متعددة اللغات بشكل أفضل.نحن نقدم استكشاف أساليب الترجمة الخلفي المختلفة من الترجمة الثنائية إلى الترجمة متعددة اللغات.يتم الحصول على أداء أفضل من خلال طريقة أخذ العينات المقيدة، والتي تختلف عن اكتشاف الترجمة الثنائية الثدية.علاوة على ذلك، نستكشف أيضا تأثير المفردات ومقدار البيانات الاصطناعية.والمثير للدهشة أن الحجم الأصغر من المفردات أداء أفضل، وتقدم بيانات اللغة الإنجليزية النائية واسعة النطاق تحسنا متواضعا.لقد أرسلنا إلى كل من المهام الصغيرة وتحقيق المركز الثاني.
This paper illustrates our approach to the shared task on large-scale multilingual machine translation in the sixth conference on machine translation (WMT-21). In this work, we aim to build a single multilingual translation system with a hypothesis that a universal cross-language representation leads to better multilingual translation performance. We extend the exploration of different back-translation methods from bilingual translation to multilingual translation. Better performance is obtained by the constrained sampling method, which is different from the finding of the bilingual translation. Besides, we also explore the effect of vocabularies and the amount of synthetic data. Surprisingly, the smaller size of vocabularies perform better, and the extensive monolingual English data offers a modest improvement. We submitted to both the small tasks and achieve the second place.
المراجع المستخدمة
https://aclanthology.org/