على الرغم من العدد المتزايد من أنظمة الترجمة الآلية الكبيرة والشاملة (MT)، فقد تم تقييد تقييم هذه الأساليب بلغات مختلفة بسبب عدم وجود كورسا موازية عالية الجودة بالإضافة إلى المشاركة مع الأشخاص الذين يتحدثون هذه اللغات. في هذه الدراسة، نقدم تقييم مناهج أحدث من النهج التدريبية لتدريب وتقييم أنظمة MT في 22 لغة من عائلة اللغات التركية، معظمها يتم استكشافها بشكل كبير. أولا، نعتمد كوربوس سمسم مع بعض التحسينات الرئيسية على التدريب ومجموعات التقييم. ثم، ندرب 26 خطوط خطوط خطوط خطية ثنائية اللغة بالإضافة إلى نموذج MT (MNMT) متعدد الاتجاهات باستخدام Corpus وأداء تحليل مكثف باستخدام المقاييس التلقائية وكذلك التقييمات البشرية. نجد أن نموذج MNMT يتفوق على جميع خطوط الأساس الثنائية الثالثة تقريبا في مجموعات الاختبار خارج المجال وتؤدي النموذج الموجود على مهمة المصب من زوج واحد يؤدي أيضا إلى زيادة كبيرة في الأداء في كل من سيناريوهات منخفضة وعالية الموارد. يشير تحليلنا اليقظ لمعايير التقييم لنماذج MT باللغات التركية أيضا إلى ضرورة مزيد من البحث في هذا الاتجاه. نقوم بإصدار تقسيم Corpus، ومجموعات الاختبار وكذلك النماذج للجمهور.
Despite the increasing number of large and comprehensive machine translation (MT) systems, evaluation of these methods in various languages has been restrained by the lack of high-quality parallel corpora as well as engagement with the people that speak these languages. In this study, we present an evaluation of state-of-the-art approaches to training and evaluating MT systems in 22 languages from the Turkic language family, most of which being extremely under-explored. First, we adopt the TIL Corpus with a few key improvements to the training and the evaluation sets. Then, we train 26 bilingual baselines as well as a multi-way neural MT (MNMT) model using the corpus and perform an extensive analysis using automatic metrics as well as human evaluations. We find that the MNMT model outperforms almost all bilingual baselines in the out-of-domain test sets and finetuning the model on a downstream task of a single pair also results in a huge performance boost in both low- and high-resource scenarios. Our attentive analysis of evaluation criteria for MT models in Turkic languages also points to the necessity for further research in this direction. We release the corpus splits, test sets as well as models to the public.
References used
https://aclanthology.org/
India is known as the land of many tongues and dialects. Neural machine translation (NMT) is the current state-of-the-art approach for machine translation (MT) but performs better only with large datasets which Indian languages usually lack, making t
This paper describes the work and the systems submitted by the IIIT-Hyderbad team in the WAT 2021 MultiIndicMT shared task. The task covers 10 major languages of the Indian subcontinent. For the scope of this task, we have built multilingual systems
This paper proposes a technique for adding a new source or target language to an existing multilingual NMT model without re-training it on the initial set of languages. It consists in replacing the shared vocabulary with a small language-specific voc
We describe the EdinSaar submission to the shared task of Multilingual Low-Resource Translation for North Germanic Languages at the Sixth Conference on Machine Translation (WMT2021). We submit multilingual translation models for translations to/from
Recent advances in neural machine translation (NMT) have pushed the quality of machine translation systems to the point where they are becoming widely adopted to build competitive systems. However, there is still a large number of languages that are