الترجمة المرجودة (BT) من Target Monolingual Corpora هي استراتيجية تكبير البيانات المستخدمة على نطاق واسع للترجمة الآلية العصبية (NMT)، خاصة بالنسبة لأزواج لغة الموارد المنخفضة. لتحسين فعالية بيانات BT المتاحة، نقدم HINTEDBT --- عائلة من التقنيات التي توفر تلميحات (من خلال العلامات) إلى التشفير والكشف. أولا، نقترح طريقة جديدة لاستخدام بيانات BT عالية الجودة عالية ومنخفضة من خلال توفير تلميحات (كعلامات مصدر على التشفير) إلى النموذج حول جودة كل زوج من المصدر. لا نقوم بتصفية بيانات منخفضة الجودة ولكنها تظهر بدلا من ذلك أن هذه التلميحات تمكن النموذج للتعلم بفعالية من البيانات الصاخبة. ثانيا، نتعلم مشكلة التنبؤ بما إذا كان يجب ترجمة الرمزية المصدر أو ترجمة إلى اللغة المستهدفة، وهو أمر شائع في مهام الترجمة عبر البرامج النصية (I.E.E.، حيث لا يشارك المصدر والهدف النصي الكتابي). بالنسبة لهذه الحالات، نقترح تدريب النموذج بألم تلميحات إضافية (كعلامات مستهدفة على وحدة فك التشفير) التي توفر معلومات حول العملية المطلوبة في المصدر (الترجمة أو الترجمة والترجمة). نقوم بإجراء تجارب وتحليلات مفصلة على معايير WMT القياسية لثلاثة أزواج لغة منخفضة / متوسطة الموارد: الهندية، الغوجاراتية، تاميل إلى الإنجليزية. تقارن أساليبنا إيجابية مع خمس خطوط خطوط خطية قوية وأنشأت بشكل جيد. نظهر أن استخدام هذه التلميحات، كلاهما بشكل منفصل وبعضها البعض، يحسن جودة الترجمة بشكل كبير ويؤدي إلى أداء أحدث في أزواج اللغة الثلاثة في إعدادات ثنائية اللغة المقابلة.
Back-translation (BT) of target monolingual corpora is a widely used data augmentation strategy for neural machine translation (NMT), especially for low-resource language pairs. To improve effectiveness of the available BT data, we introduce HintedBT---a family of techniques which provides hints (through tags) to the encoder and decoder. First, we propose a novel method of using both high and low quality BT data by providing hints (as source tags on the encoder) to the model about the quality of each source-target pair. We don't filter out low quality data but instead show that these hints enable the model to learn effectively from noisy data. Second, we address the problem of predicting whether a source token needs to be translated or transliterated to the target language, which is common in cross-script translation tasks (i.e., where source and target do not share the written script). For such cases, we propose training the model with additional hints (as target tags on the decoder) that provide information about the operation required on the source (translation or both translation and transliteration). We conduct experiments and detailed analyses on standard WMT benchmarks for three cross-script low/medium-resource language pairs: Hindi,Gujarati,Tamil-to-English. Our methods compare favorably with five strong and well established baselines. We show that using these hints, both separately and together, significantly improves translation quality and leads to state-of-the-art performance in all three language pairs in corresponding bilingual settings.
References used
https://aclanthology.org/
We describe our submissions to the 6th edition of the Social Media Mining for Health Applications (SMM4H) shared task. Our team (OGNLP) participated in the sub-task: Classification of tweets self-reporting potential cases of COVID-19 (Task 5). For ou
Knowledge data are massive and widespread in the real-world, which can serve as good external sources to enrich conversations. However, in knowledge-grounded conversations, current models still lack the fine-grained control over knowledge selection a
Recent state-of-the-art (SOTA) effective neural network methods and fine-tuning methods based on pre-trained models (PTM) have been used in Chinese word segmentation (CWS), and they achieve great results. However, previous works focus on training the
Various machine learning tasks can benefit from access to external information of different modalities, such as text and images. Recent work has focused on learning architectures with large memories capable of storing this knowledge. We propose augme
Pre-training (PT) and back-translation (BT) are two simple and powerful methods to utilize monolingual data for improving the model performance of neural machine translation (NMT). This paper takes the first step to investigate the complementarity be