تصف هذه الورقة العمل والأنظمة المقدمة من فريق IIIT-HYDERBAD في مهمة WAT 2021 Multiindicmt المشتركة. تغطي المهمة 10 لغات رئيسية من شبه القارة الهندية. بالنسبة لنطاق هذه المهمة، قمنا ببناء أنظمة متعددة اللغات لمدة 20 ساعة توسيعية وهي الإنجليزية-MED (ONE-LICONE) وإرش إنجليزي (كثير إلى واحد). منفردة، اللغات الهندية هي فقراء الموارد التي تعيق جودة الترجمة ولكن من خلال الاستفادة من تعدد اللغات والهدوضة غير اللغوية والنباتية، يمكن تعزيز جودة الترجمة بشكل كبير. لكن أنظمة متعددة اللغات معقدة للغاية من حيث الوقت وكذلك الموارد الحسابية. لذلك، نحن ندرب أنظمتنا من خلال إلقاء البيانات الكفاءة التي سيساهم في الواقع في معظم عملية التعلم. علاوة على ذلك، نحن نستغل أيضا اللغة المتعلقة بعثر بين اللغات الهندية. تم إجراء جميع المقارنات باستخدام نقاط بلو ووجدت أن نظامنا متعدد اللغات النهائي يتفوق بشكل كبير على خطوط الأساس بمعدل 11.3 و 19.6 نقاط بلو لترويج الإنجليزي (EN-XX) وإرادي الإنشاءات الإنجليزي (XX-EN) ، على التوالى.
This paper describes the work and the systems submitted by the IIIT-Hyderbad team in the WAT 2021 MultiIndicMT shared task. The task covers 10 major languages of the Indian subcontinent. For the scope of this task, we have built multilingual systems for 20 translation directions namely English-Indic (one-to- many) and Indic-English (many-to-one). Individually, Indian languages are resource poor which hampers translation quality but by leveraging multilingualism and abundant monolingual corpora, the translation quality can be substantially boosted. But the multilingual systems are highly complex in terms of time as well as computational resources. Therefore, we are training our systems by efficiently se- lecting data that will actually contribute to most of the learning process. Furthermore, we are also exploiting the language related- ness found in between Indian languages. All the comparisons were made using BLEU score and we found that our final multilingual sys- tem significantly outperforms the baselines by an average of 11.3 and 19.6 BLEU points for English-Indic (en-xx) and Indic-English (xx- en) directions, respectively.
References used
https://aclanthology.org/
In this paper, we present the details of the systems that we have submitted for the WAT 2021 MultiIndicMT: An Indic Language Multilingual Task. We have submitted two separate multilingual NMT models: one for English to 10 Indic languages and another
India is known as the land of many tongues and dialects. Neural machine translation (NMT) is the current state-of-the-art approach for machine translation (MT) but performs better only with large datasets which Indian languages usually lack, making t
India is one of the richest language hubs on the earth and is very diverse and multilingual. But apart from a few Indian languages, most of them are still considered to be resource poor. Since most of the NLP techniques either require linguistic know
This paper describes Charles University sub-mission for Terminology translation shared task at WMT21. The objective of this task is to design a system which translates certain terms based on a provided terminology database, while preserving high over
This paper introduces our neural machine translation systems' participation in the WAT 2021 shared translation tasks (team ID: sakura). We participated in the (i) NICT-SAP, (ii) Japanese-English multimodal translation, (iii) Multilingual Indic, and (