بالنسبة للترجمة اليابانية إلى الإنجليزية، تشكل الضمائر الصفرية في اليابانية تحديا، نظرا لأن النموذج يحتاج إلى استنتاج النموذج وإنتاج الضمير المقابل في الجانب المستهدف من الجملة الإنجليزية.ومع ذلك، على الرغم من أن حل الضمائر الصفرية بالكامل غالبا ما تحتاج إلى سياق خطاب، في بعض الحالات، فإن السياق المحلي في غضون جملة يمنح أدلة على استنتاج الضمير الصفر.في هذه الدراسة، نقترح طريقة تكبير البيانات التي توفر إشارات تدريبية إضافية لنموذج الترجمة لتعلم الارتباطات بين السياق المحلي وضمائر الصفر.نظهر أن الطريقة المقترحة تعمل بشكل كبير على تحسين دقة ترجمة صفر الضمير مع تجارب ترجمة الجهاز في مجال المحادثة.
For Japanese-to-English translation, zero pronouns in Japanese pose a challenge, since the model needs to infer and produce the corresponding pronoun in the target side of the English sentence. However, although fully resolving zero pronouns often needs discourse context, in some cases, the local context within a sentence gives clues to the inference of the zero pronoun. In this study, we propose a data augmentation method that provides additional training signals for the translation model to learn correlations between local context and zero pronouns. We show that the proposed method significantly improves the accuracy of zero pronoun translation with machine translation experiments in the conversational domain.
المراجع المستخدمة
https://aclanthology.org/
نقترح طريقة تكبير البيانات للترجمة الآلية العصبية.إنه يعمل عن طريق تفسير نماذج اللغة ومحاذاة الجمل الفعلية سببا.على وجه التحديد، فإنه يخلق كورس ترجمة موازية مزعجة عن طريق توليد عبارات محاذاة مضادة للمحاطة (المسار).نحن نولد هذه من خلال أخذ عينات من عب
تصف هذه الورقة نظام NAIST لمهمة الترجمة المركزة للترجمة الفورية إلى الإنجليزية إلى اليابانية في حملة تقييم IWSLT 2021.يعتمد تقديمنا الأساسي على الترجمة الآلية العصبية WAIL-K مع تقطير المعرفة على مستوى التسلسل لتشجيع الترجمة الحرفية.
تعزز البيانات، التي تشير إلى معالجة المدخلات (على سبيل المثال، إضافة ضوضاء عشوائية، اخفاء أجزاء محددة) لتكبير مجموعة البيانات، تم اعتمادها على نطاق واسع في تعلم الجهاز.تعمل معظم تقنيات تكبير البيانات على إدخال واحد، مما يحد من تنوع كوربوس التدريب.في
في هذه الورقة، نحقق في عوامل القيادة وراء التسلسل، وهي طريقة بسيطة ولكنها فعالة من البيانات للترجمة الآلية العصبية منخفضة الموارد.تشير تجاربنا إلى أن سياق الخطاب غير مرجح هو سبب تحسين تسلسل بلو من قبل حوالي +1 عبر أربع أزواج لغوية.بدلا من ذلك، نوضح أ
غالبا ما يتحلل ترجمة لغة الإشارة (SLT) في التعرف على الفيديو إلى اللمعان والترجمة النصية إلى النص، حيث يكون اللمعان سلسلة من الكلمات اللغوية الموضحة باللغة المنطوقة بالترتيب الذي يتم فيه توقيعه.نحن نركز هنا على الترجمة اللامع إلى النص، والتي نعلمها ك