تعرض نهج الترجمة الآلية العصبية (NMT) التي توظف بيانات أحادية الأحادية تحسينات ثابتة في الظروف الغنية بالموارد. ومع ذلك، فإن التقييمات باستخدام لغات العالم الحقيقي LowResource لا تزال تؤدي إلى أداء غير مرضي. يقترح هذا العمل نهج نمذجة Zeroshot NMT NMT NMT يتعلم بدون افتراض لغة محورية الآن بتقاسم البيانات الموازية مع المصدر الصفر واللغات المستهدفة. يعتمد نهجنا على ثلاث مراحل: التهيئة من أي نموذج NMT المدرب مسبقا مراقبة اللغة المستهدفة على الأقل، وتعزيز جوانب المصدر التي تستفيد من بيانات الأحادية المستهدفة، وتعلم تحسين النموذج الأولي إلى زوج الطلقة الصفرية، حيث الأخيران تشكل دورة selflearyling. تظهر النتائج التجريبية التي تنطوي على أربعة متنوعة (من حيث أسرة اللغة، البرنامج النصي ورابطتها) أزواج صفرية بالرصاص فعالية نهجنا مع ما يصل إلى +5.93 لتحسين بلو على خط الأساس ثنائي اللغة الخاضع للإشراف. بالمقارنة مع NMT غير المدعومة، يلاحظ التحسينات المستمرة حتى في إعداد عدم تطابق المجال، مما يدل على قابلية استخدام طريقتنا.
Neural Machine Translation (NMT) approaches employing monolingual data are showing steady improvements in resource-rich conditions. However, evaluations using real-world lowresource languages still result in unsatisfactory performance. This work proposes a novel zeroshot NMT modeling approach that learns without the now-standard assumption of a pivot language sharing parallel data with the zero-shot source and target languages. Our approach is based on three stages: initialization from any pre-trained NMT model observing at least the target language, augmentation of source sides leveraging target monolingual data, and learning to optimize the initial model to the zero-shot pair, where the latter two constitute a selflearning cycle. Empirical findings involving four diverse (in terms of a language family, script and relatedness) zero-shot pairs show the effectiveness of our approach with up to +5.93 BLEU improvement against a supervised bilingual baseline. Compared to unsupervised NMT, consistent improvements are observed even in a domain-mismatch setting, attesting to the usability of our method.
المراجع المستخدمة
https://aclanthology.org/
يركز العمل السابق بشكل رئيسي على تحسين التحويل عبر اللغات لمهام NLU مع ترميز مسبب متعدد اللغات (MPE)، أو تحسين الأداء على الترجمة الآلية الخاضعة للإشراف مع بيرت. ومع ذلك، فقد تم استكشافه أنه ما إذا كان يمكن أن يساعد MPE في تسهيل عملية النقل عبر اللغا
تتطلب أساليب التعلم المنهج الحالية للترجمة الآلية العصبية (NMT) أخذ العينات مبالغ كافية من العينات "من بيانات التدريب في مرحلة التدريب المبكر. هذا غير قابل للتحقيق دائما لغات الموارد المنخفضة حيث تكون كمية البيانات التدريبية محدودة. لمعالجة مثل هذا ا
تقدم الورقة تجارب في الترجمة الآلية العصبية مع القيود المعجمية في لغة غنية مورمية.على وجه الخصوص، نقدم طريقة واستنادا إلى فك التشفير المقيد والتي تتعامل مع الأشكال المصدرة للإدخالات المعجمية ولا تتطلب أي تعديل بيانات التدريب أو الهندسة المعمارية النم
تهدف الترجمة التكيفية إلى تضمين ملاحظات المستخدمين بشكل حيوي لتحسين جودة الترجمة. في سيناريو ما بعد التحرير، يتم إدراج تصحيحات المستخدم لإخراج الترجمة الآلي باستمرار في نماذج الترجمة، أو تقليل أو إلغاء تحرير الأخطاء المتكررة وزيادة فائدة الترجمة الآل
عادة ما يتم تكليف الترجمة الآلية العصبية متعددة الموارد (MNMT) بتحسين أداء الترجمة على أزواج لغة واحدة أو أكثر بمساعدة أزواج لغة الموارد عالية الموارد.في هذه الورقة، نقترح اثنين من المناهج البحث البسيطة القائمة على البحث - طلب بيانات التدريب المتعدد