في هذه الورقة وصفنا تقديمنا إلى الترجمة متعددة اللغات متعددة اللغات Wtask MulticeIndicMt '' تحت اسم الفريق Nict-5 ''.هذه المهمة تنطوي على الترجمة من 10 لغات ind إلى الإنجليزية والعكس العكس.كان الهدف من المهمة هو استكشاف فائدة النهج متعددة اللغات باستخدام مجموعة متنوعة من المجال والموازيات غير المباشرة وغير المباشرة.بالنظر إلى النجاح الأخير للتعددية العامة للتدريب المسبق ل NMT، قررنا استكشاف ما قبل التدريب نموذج MBART على مجموعة كبيرة من أحادي الأطراف أحادية تغطي جميع اللغات في هذه المهمة متبوعة بضبط متعدد اللغات على الفور في المجال.أولا، لاحظنا أن كمية صغيرة من التدريب المسبق مسبقا تليها ضبط الدقيقة على شركت ثنائية اللغة يمكن أن تسفر عن مكاسب كبيرة عندما لا يتم استخدام التدريب المسبق.علاوة على ذلك، يؤدي الضبط الجمني متعدد اللغات إلى مزيد من المكاسب في جودة الترجمة التي تتفوق بشكل كبير على خط أساسي قوي متعدد اللغات لا يعتمد على أي تدريب مسبق.
In this paper we describe our submission to the multilingual Indic language translation wtask MultiIndicMT'' under the team name NICT-5''. This task involves translation from 10 Indic languages into English and vice-versa. The objective of the task was to explore the utility of multilingual approaches using a variety of in-domain and out-of-domain parallel and monolingual corpora. Given the recent success of multilingual NMT pre-training we decided to explore pre-training an MBART model on a large monolingual corpus collection covering all languages in this task followed by multilingual fine-tuning on small in-domain corpora. Firstly, we observed that a small amount of pre-training followed by fine-tuning on small bilingual corpora can yield large gains over when pre-training is not used. Furthermore, multilingual fine-tuning leads to further gains in translation quality which significantly outperforms a very strong multilingual baseline that does not rely on any pre-training.
References used
https://aclanthology.org/
In this work, we focus on a more challenging few-shot intent detection scenario where many intents are fine-grained and semantically similar. We present a simple yet effective few-shot intent detection schema via contrastive pre-training and fine-tun
This paper describes the work and the systems submitted by the IIIT-Hyderbad team in the WAT 2021 MultiIndicMT shared task. The task covers 10 major languages of the Indian subcontinent. For the scope of this task, we have built multilingual systems
In this paper we describe our submissions to WAT-2021 (Nakazawa et al., 2021) for English-to-Myanmar language (Burmese) task. Our team, ID: YCC-MT1'', focused on bringing transliteration knowledge to the decoder without changing the model. We manuall
The rise of pre-trained language models has yielded substantial progress in the vast majority of Natural Language Processing (NLP) tasks. However, a generic approach towards the pre-training procedure can naturally be sub-optimal in some cases. Parti
This paper reports the Machine Translation (MT) systems submitted by the IIITT team for the English→Marathi and English⇔Irish language pairs LoResMT 2021 shared task. The task focuses on getting exceptional translations for rather low-resourced langu