في الترجمة الآلية المتزامنة، والعثور على وكيل مع تسلسل العمل الأمثل للقراءة والكتابة التي تحتفظ بمستوى عال من جودة الترجمة مع التقليل من التأخر المتوسط في إنتاج الرموز المستهدفة لا يزال مشكلة صعبة للغاية. نقترح نهج تعليمي تحت إشراف رواية لتدريب وكيل يمكنه اكتشاف الحد الأدنى لعدد القراءة المطلوبة لتوليد كل رمزية مستهدفة من خلال مقارنة الترجمات المتزامنة ضد ترجمات الجملة الكاملة أثناء التدريب لإنشاء تسلسل عمل أوراكل. يمكن بعد ذلك استخدام تسلسل أوراكل هذه لتدريب نموذج إشراف لتوليد العمل في وقت الاستدلال. يوفر نهجنا بديلا عن طرق التشكيل الحالية في الترجمة المتزامنة من خلال تقديم هدف تدريب جديد، وهو أمر أسهل للتدريب من المحاولات السابقة في تدريب الوكيل باستخدام تقنيات تعليم التعزيز لهذه المهمة. تظهر نتائجنا التجريبية أن طريقة التدريب الجديدة لتوليد العمل تنتج ترجمات عالية الجودة مع تقليل التأخر المتوسط في الترجمة الفورية.
In simultaneous machine translation, finding an agent with the optimal action sequence of reads and writes that maintain a high level of translation quality while minimizing the average lag in producing target tokens remains an extremely challenging problem. We propose a novel supervised learning approach for training an agent that can detect the minimum number of reads required for generating each target token by comparing simultaneous translations against full-sentence translations during training to generate oracle action sequences. These oracle sequences can then be used to train a supervised model for action generation at inference time. Our approach provides an alternative to current heuristic methods in simultaneous translation by introducing a new training objective, which is easier to train than previous attempts at training the agent using reinforcement learning techniques for this task. Our experimental results show that our novel training method for action generation produces much higher quality translations while minimizing the average lag in simultaneous translation.
المراجع المستخدمة
https://aclanthology.org/
في وضع الترجمة في الوقت الحقيقي للترجمة في الوقت الفعلي، تبدأ نماذج الترجمة الآلية العصبية (NMT) بتوليد الرموز الرموز اللغوية المستهدفة من جمل لغة مصدر غير كاملة وجعلها أكثر صعوبة في ترجمة وجودة الترجمة السيئة. أظهرت الأبحاث السابقة أن NMT على مستوى
الترجمة المتزامنة هي مهمة تبدأ فيها الترجمة قبل انتهاء المتكلم من التحدث، لذلك من المهم أن تقرر متى تبدأ عملية الترجمة.ومع ذلك، فإن اتخاذ قرار بشأن قراءة المزيد من كلمات الإدخال أو بدء الترجمة من الصعب على أزواج اللغة مع أوامر كلمة مختلفة مثل اللغة ا
بالنسبة لمعظم مجموعات اللغة والبيانات الموازية إما نادرة أو غير متوفرة ببساطة.لمعالجة هذا والترجمة الآلية غير المرفوعة (UMT) باستغلال كميات كبيرة من البيانات الأحادية من خلال استخدام تقنيات توليد البيانات الاصطناعية مثل الترجمة الخلفية والتوزيع وبينم
تعمل العديد من نماذج NLP على تسلسل الرموز الرموز الفرعية التي تنتجها قواعد التزخم المصنوعة يدويا وخوارزميات التعريفي للكلمة الفرعية.بديل عالمي بسيط هو تمثيل كل نص محوسب كسلسلة من البايتات عبر UTF-8، وضبط الحاجة إلى طبقة تضمين نظرا لأن هناك عدد أقل من
اكتسبت نهج الترجمة الآلية العصبية شعبية في الترجمة الآلية بسبب تحليل سياقها وقدرتها ومعالجتها لقضايا الاعتماد على المدى الطويل.لقد شاركنا في المهمة المشتركة WMT21 الخاصة بترجمة اللغة المماثلة على زوج التاميل التيلجو مع اسم الفريق: NILP-NITS.في هذه ال