في الترجمة الآلية المتزامنة، والعثور على وكيل مع تسلسل العمل الأمثل للقراءة والكتابة التي تحتفظ بمستوى عال من جودة الترجمة مع التقليل من التأخر المتوسط في إنتاج الرموز المستهدفة لا يزال مشكلة صعبة للغاية. نقترح نهج تعليمي تحت إشراف رواية لتدريب وكيل يمكنه اكتشاف الحد الأدنى لعدد القراءة المطلوبة لتوليد كل رمزية مستهدفة من خلال مقارنة الترجمات المتزامنة ضد ترجمات الجملة الكاملة أثناء التدريب لإنشاء تسلسل عمل أوراكل. يمكن بعد ذلك استخدام تسلسل أوراكل هذه لتدريب نموذج إشراف لتوليد العمل في وقت الاستدلال. يوفر نهجنا بديلا عن طرق التشكيل الحالية في الترجمة المتزامنة من خلال تقديم هدف تدريب جديد، وهو أمر أسهل للتدريب من المحاولات السابقة في تدريب الوكيل باستخدام تقنيات تعليم التعزيز لهذه المهمة. تظهر نتائجنا التجريبية أن طريقة التدريب الجديدة لتوليد العمل تنتج ترجمات عالية الجودة مع تقليل التأخر المتوسط في الترجمة الفورية.
In simultaneous machine translation, finding an agent with the optimal action sequence of reads and writes that maintain a high level of translation quality while minimizing the average lag in producing target tokens remains an extremely challenging problem. We propose a novel supervised learning approach for training an agent that can detect the minimum number of reads required for generating each target token by comparing simultaneous translations against full-sentence translations during training to generate oracle action sequences. These oracle sequences can then be used to train a supervised model for action generation at inference time. Our approach provides an alternative to current heuristic methods in simultaneous translation by introducing a new training objective, which is easier to train than previous attempts at training the agent using reinforcement learning techniques for this task. Our experimental results show that our novel training method for action generation produces much higher quality translations while minimizing the average lag in simultaneous translation.
References used
https://aclanthology.org/
In a real-time simultaneous translation setting and neural machine translation (NMT) models start generating target language tokens from incomplete source language sentences and making them harder to translate and leading to poor translation quality.
Simultaneous translation is a task in which translation begins before the speaker has finished speaking, so it is important to decide when to start the translation process. However, deciding whether to read more input words or start to translate is d
For most language combinations and parallel data is either scarce or simply unavailable. To address this and unsupervised machine translation (UMT) exploits large amounts of monolingual data by using synthetic data generation techniques such as back-
Many NLP models operate over sequences of subword tokens produced by hand-crafted tokenization rules and heuristic subword induction algorithms. A simple universal alternative is to represent every computerized text as a sequence of bytes via UTF-8,
The neural machine translation approach has gained popularity in machine translation because of its context analysing ability and its handling of long-term dependency issues. We have participated in the WMT21 shared task of similar language translati