نقترح طريقة تكبير البيانات للترجمة الآلية العصبية.إنه يعمل عن طريق تفسير نماذج اللغة ومحاذاة الجمل الفعلية سببا.على وجه التحديد، فإنه يخلق كورس ترجمة موازية مزعجة عن طريق توليد عبارات محاذاة مضادة للمحاطة (المسار).نحن نولد هذه من خلال أخذ عينات من عبارات مصدر جديدة من نموذج لغة ملثم، ثم أخذ عينات من عبارة مستهدفة محاذاة محاذاة من خلال الإشارة إلى أن نموذج لغة الترجمة يمكن تفسيره على أنه نموذج سببي هيكلي Gumbel-Max (Oberst و Sontag، 2019).مقارنة بالعمل السابق، تأخذ طريقتنا السياق ومحاذاة في الاعتبار للحفاظ على التماثل بين المصدر والتسلسلات المستهدفة.تجارب على iwslt'15 الإنجليزية → الفيتنامية، WMT'17 الإنجليزية → الألمانية، WMT'18 English → التركية، و WMT'19 قوية الإنجليزية → معرض الفرنسية أن الطريقة يمكن أن تحسن أداء الترجمة والخلفية والترجمة قوية.
We propose a data augmentation method for neural machine translation. It works by interpreting language models and phrasal alignment causally. Specifically, it creates augmented parallel translation corpora by generating (path-specific) counterfactual aligned phrases. We generate these by sampling new source phrases from a masked language model, then sampling an aligned counterfactual target phrase by noting that a translation language model can be interpreted as a Gumbel-Max Structural Causal Model (Oberst and Sontag, 2019). Compared to previous work, our method takes both context and alignment into account to maintain the symmetry between source and target sequences. Experiments on IWSLT'15 English → Vietnamese, WMT'17 English → German, WMT'18 English → Turkish, and WMT'19 robust English → French show that the method can improve the performance of translation, backtranslation and translation robustness.
References used
https://aclanthology.org/
Many NLP models operate over sequences of subword tokens produced by hand-crafted tokenization rules and heuristic subword induction algorithms. A simple universal alternative is to represent every computerized text as a sequence of bytes via UTF-8,
Data augmentation, which refers to manipulating the inputs (e.g., adding random noise,masking specific parts) to enlarge the dataset,has been widely adopted in machine learning. Most data augmentation techniques operate on a single input, which limit
Successful methods for unsupervised neural machine translation (UNMT) employ cross-lingual pretraining via self-supervision, often in the form of a masked language modeling or a sequence generation task, which requires the model to align the lexical-
Recently, neural machine translation is widely used for its high translation accuracy, but it is also known to show poor performance at long sentence translation. Besides, this tendency appears prominently for low resource languages. We assume that t
We observe that the development cross-entropy loss of supervised neural machine translation models scales like a power law with the amount of training data and the number of non-embedding parameters in the model. We discuss some practical implication