تعزز البيانات، التي تشير إلى معالجة المدخلات (على سبيل المثال، إضافة ضوضاء عشوائية، اخفاء أجزاء محددة) لتكبير مجموعة البيانات، تم اعتمادها على نطاق واسع في تعلم الجهاز.تعمل معظم تقنيات تكبير البيانات على إدخال واحد، مما يحد من تنوع كوربوس التدريب.في هذه الورقة، نقترح تقنية بسيطة ولكنها فعالة لتكبير البيانات للترجمة الآلية العصبية، mixseq، والتي تعمل على مدخلات متعددة وأهدافها المقابلة لها.على وجه التحديد، نقوم بشكل عشوائي بتحديد تسلسل مدخلتين بشكل عشوائي، وتسلسلها معا كإدخال أطول كما أن تسلسل المستحضرات المستهدفة المقابلة للهدف الموسع، ونماذج القطار على مجموعة البيانات المستعملة.تثبت التجارب في تسع مهام ترجمة آلية أن هذه الطريقة Asimple تعزز الخط الأساس عن طريق هامش غير تافهة.يمكن دمج طريقةنا مع طرق تكبير البيانات المستندة إلى الإدخال الفردي للحصول على مزيد من التحسينات.
Data augmentation, which refers to manipulating the inputs (e.g., adding random noise,masking specific parts) to enlarge the dataset,has been widely adopted in machine learning. Most data augmentation techniques operate on a single input, which limits the diversity of the training corpus. In this paper, we propose a simple yet effective data augmentation technique for neural machine translation, mixSeq, which operates on multiple inputs and their corresponding targets. Specifically, we randomly select two input sequences,concatenate them together as a longer input aswell as their corresponding target sequencesas an enlarged target, and train models on theaugmented dataset. Experiments on nine machine translation tasks demonstrate that such asimple method boosts the baselines by a non-trivial margin. Our method can be further combined with single input based data augmentation methods to obtain further improvements.
References used
https://aclanthology.org/
We propose a data augmentation method for neural machine translation. It works by interpreting language models and phrasal alignment causally. Specifically, it creates augmented parallel translation corpora by generating (path-specific) counterfactua
Recently, neural machine translation is widely used for its high translation accuracy, but it is also known to show poor performance at long sentence translation. Besides, this tendency appears prominently for low resource languages. We assume that t
We observe that the development cross-entropy loss of supervised neural machine translation models scales like a power law with the amount of training data and the number of non-embedding parameters in the model. We discuss some practical implication
This paper describes the participation of the UoB-NLP team in the ProfNER-ST shared subtask 7a. The task was aimed at detecting the mention of professions in social media text. Our team experimented with two methods of improving the performance of pr
For Japanese-to-English translation, zero pronouns in Japanese pose a challenge, since the model needs to infer and produce the corresponding pronoun in the target side of the English sentence. However, although fully resolving zero pronouns often ne