في هذا العمل، نحلل متانة أنظمة الترجمة الآلية العصبية نحو الاضطرابات النحوية في المصدر.على وجه الخصوص، نركز على اضطرابات الانعطاف المورفولوجي.بينما تمت دراسة هذا مؤخرا للغة الإنجليزية → French (Morpheus) (Tan et al.، 2020)، فمن غير الواضح كيف تمتد هذا إلى أي أنظمة ترجمة إنجليزية →.نقترح Morpheus - متعدد اللغات التي تستخدم قواميس Unimorph لتحديد اضطرابات مورفولوجية للمصدر الذي يؤثر سلبا على نماذج الترجمة.جنبا إلى جنب مع تحليل أنظمة MT المسبقة للحكانات، نقوم بتدريب وتحليل الأنظمة لمدة 11 أزواج لغة باستخدام كوربوس TED متعددة اللغات (Qi et al.، 2018).نحن نقارن أيضا هذا مع الأخطاء الفعلية من مكبرات البيانات غير الأصلية باستخدام مجموعات بيانات تصحيح الأخطاء النحوية.أخيرا، نقدم تحليلا نوعيا وكميا لأغاني أي أنظمة ترجمة إنجليزية →.
In this work, we analyze the robustness of neural machine translation systems towards grammatical perturbations in the source. In particular, we focus on morphological inflection related perturbations. While this has been recently studied for English→French (MORPHEUS) (Tan et al., 2020), it is unclear how this extends to Any→English translation systems. We propose MORPHEUS-MULTILINGUAL that utilizes UniMorph dictionaries to identify morphological perturbations to source that adversely affect the translation models. Along with an analysis of state-of-the-art pretrained MT systems, we train and analyze systems for 11 language pairs using the multilingual TED corpus (Qi et al., 2018). We also compare this to actual errors of non-native speakers using Grammatical Error Correction datasets. Finally, we present a qualitative and quantitative analysis of the robustness of Any→English translation systems.
References used
https://aclanthology.org/
Neural machine translation (NMT) models are data-driven and require large-scale training corpus. In practical applications, NMT models are usually trained on a general domain corpus and then fine-tuned by continuing training on the in-domain corpus.
Recent research questions the importance of the dot-product self-attention in Transformer models and shows that most attention heads learn simple positional patterns. In this paper, we push further in this research line and propose a novel substitute
Most current neural machine translation models adopt a monotonic decoding order of either left-to-right or right-to-left. In this work, we propose a novel method that breaks up the limitation of these decoding orders, called Smart-Start decoding. Mor
We propose a data augmentation method for neural machine translation. It works by interpreting language models and phrasal alignment causally. Specifically, it creates augmented parallel translation corpora by generating (path-specific) counterfactua
Data augmentation, which refers to manipulating the inputs (e.g., adding random noise,masking specific parts) to enlarge the dataset,has been widely adopted in machine learning. Most data augmentation techniques operate on a single input, which limit