في هذه الورقة، نحقق في عوامل القيادة وراء التسلسل، وهي طريقة بسيطة ولكنها فعالة من البيانات للترجمة الآلية العصبية منخفضة الموارد.تشير تجاربنا إلى أن سياق الخطاب غير مرجح هو سبب تحسين تسلسل بلو من قبل حوالي +1 عبر أربع أزواج لغوية.بدلا من ذلك، نوضح أن التحسن يأتي من ثلاثة عوامل أخرى لا علاقة لها بالحبال: تنوع السياق، وتنوع الطول، و (إلى حد أقل) يتحول الموقف.
In this paper, we investigate the driving factors behind concatenation, a simple but effective data augmentation method for low-resource neural machine translation. Our experiments suggest that discourse context is unlikely the cause for concatenation improving BLEU by about +1 across four language pairs. Instead, we demonstrate that the improvement comes from three other factors unrelated to discourse: context diversity, length diversity, and (to a lesser extent) position shifting.
المراجع المستخدمة
https://aclanthology.org/
مؤخرا، تستخدم الترجمة الآلية العصبية على نطاق واسع لدقة الترجمة عالية، ولكن من المعروف أيضا أن تظهر أداء ضعيف في ترجمة جماعية طويلة.الى جانب ذلك، يظهر هذا الاتجاه بشكل بارز لغات الموارد المنخفضة.نحن نفترض أن هذه المشاكل ناتجة عن جمل طويلة كونها قليلة
نقترح طريقة تكبير البيانات للترجمة الآلية العصبية.إنه يعمل عن طريق تفسير نماذج اللغة ومحاذاة الجمل الفعلية سببا.على وجه التحديد، فإنه يخلق كورس ترجمة موازية مزعجة عن طريق توليد عبارات محاذاة مضادة للمحاطة (المسار).نحن نولد هذه من خلال أخذ عينات من عب
تعزز البيانات، التي تشير إلى معالجة المدخلات (على سبيل المثال، إضافة ضوضاء عشوائية، اخفاء أجزاء محددة) لتكبير مجموعة البيانات، تم اعتمادها على نطاق واسع في تعلم الجهاز.تعمل معظم تقنيات تكبير البيانات على إدخال واحد، مما يحد من تنوع كوربوس التدريب.في
بالنسبة للترجمة اليابانية إلى الإنجليزية، تشكل الضمائر الصفرية في اليابانية تحديا، نظرا لأن النموذج يحتاج إلى استنتاج النموذج وإنتاج الضمير المقابل في الجانب المستهدف من الجملة الإنجليزية.ومع ذلك، على الرغم من أن حل الضمائر الصفرية بالكامل غالبا ما ت
في هذه الورقة، نستكشف مقاربة عصبية بسيطة للغاية لتعيين تقويم الإملاءات إلى النسخ الصوتي في سياق منخفض الموارد.الفكرة الأساسية هي البدء من نظام أساسي وتركيز جميع الجهود بشأن تكبير البيانات.سوف نرى أن بعض التقنيات تعمل، ولكن البعض الآخر لا.