في هذه الورقة، نصف تقديم فريق مشترك لبحوث Samsung Philippines-Konvergen AI لمهمة الترجمة متعددة اللغات متعددة اللغات WMT'21 - المسار الصغير 2. نقدم نموذج محول SEQ2SEQ قياسي إلى المهمة المشتركة دون أي حيل تدريب أو عمارة، تعتمد بشكل رئيسي على قوة تقنيات ما قبل البيانات الخاصة بنا لتعزيز الأداء.سجل طراز التقديم النهائي لدينا 22.92 متوسط بلو على مجموعة Flores-101 Devtest، وسجل 22.97 متوسط بلو على مجموعة الاختبارات الخفية للمسابقة، المرتبة السادسة بشكل عام.على الرغم من استخدام محول قياسي فقط، في المرتبة النموذجية المرتبة الأولى في الإندونيسية إلى الجاوية، مما يدل على المسائل المعالجة المسبقة للبيانات على قدم المساواة، إن لم تكن أكثر، من تقنيات النموذج المتطورة وتقنيات التدريب.
In this paper, we describe the submission of the joint Samsung Research Philippines-Konvergen AI team for the WMT'21 Large Scale Multilingual Translation Task - Small Track 2. We submit a standard Seq2Seq Transformer model to the shared task without any training or architecture tricks, relying mainly on the strength of our data preprocessing techniques to boost performance. Our final submission model scored 22.92 average BLEU on the FLORES-101 devtest set, and scored 22.97 average BLEU on the contest's hidden test set, ranking us sixth overall. Despite using only a standard Transformer, our model ranked first in Indonesian to Javanese, showing that data preprocessing matters equally, if not more, than cutting edge model architectures and training techniques.
References used
https://aclanthology.org/
We present our development of the multilingual machine translation system for the large-scale multilingual machine translation task at WMT 2021. Starting form the provided baseline system, we investigated several techniques to improve the translation
This paper describes Mininglamp neural machine translation systems of the WMT2021 news translation tasks. We have participated in eight directions translation tasks for news text including Chinese to/from English, Hausa to/from English, German to/fro
This paper describes the ISTIC's submission to the Triangular Machine Translation Task of Russian-to-Chinese machine translation for WMT' 2021. In order to fully utilize the provided corpora and promote the translation performance from Russian to Chi
This paper describes TenTrans large-scale multilingual machine translation system for WMT 2021. We participate in the Small Track 2 in five South East Asian languages, thirty directions: Javanese, Indonesian, Malay, Tagalog, Tamil, English. We mainly
This paper describes ANVITA-1.0 MT system, architected for submission to WAT2021 MultiIndicMT shared task by mcairt team, where the team participated in 20 translation directions: English→Indic and Indic→English; Indic set comprised of 10 Indian lang