وصلت الترجمة غير المزدئة إلى أداء مثير للإعجاب على أزواج اللغة الغنية بالموارد مثل اللغة الإنجليزية الفرنسية والإنجليزية - الألمانية. ومع ذلك، أظهرت الدراسات المبكرة أنه في بيئات أكثر واقعية تنطوي على الموارد المنخفضة، لغات نادرة، تؤدي الترجمة غير المعينة بشكل سيئ، وتحقيق أقل من 3.0 بلو. في هذا العمل، نظير على أن تعددية اللغات أمر بالغ الأهمية لجعل أنظمة غير مخالفة عملية لإعدادات الموارد المنخفضة. على وجه الخصوص، نقدم نموذجا واحدا ل 5 لغات منخفضة الموارد (الغوجاراتية، كازاخ، النيبالية، السنهالية، والتركية) من وإلى اتجاهات اللغة الإنجليزية، والتي ترفع البيانات المتوازية غير المباشرة والمساعدة من أزواج لغة موارد أخرى عالية من خلال ثلاثة مخطط التدريب المرحلة. نحن نتفوق على جميع خطوط الأساس غير المدعومة الحالية له لهذه اللغات، وتحقيق مكاسب تصل إلى 14.4 بلو. بالإضافة إلى ذلك، نحن نتفوق خطوط خطوط خطوط خطوط خطوط أخرى تحت إشراف قوية لمختلف أزواج اللغات وكذلك تطابق أداء النموذج الحالي للإشراف على النيبالية والإنجليزية. نقوم بإجراء سلسلة من دراسات الاجتثاث لإثبات نطاقات نموذجنا بموجب درجات مختلفة من جودة البيانات، وكذلك لتحليل العوامل التي أدت إلى الأداء الفائق للنهج المقترح على النماذج التقليدية غير المعروضة.
Unsupervised translation has reached impressive performance on resource-rich language pairs such as English-French and English-German. However, early studies have shown that in more realistic settings involving low-resource, rare languages, unsupervised translation performs poorly, achieving less than 3.0 BLEU. In this work, we show that multilinguality is critical to making unsupervised systems practical for low-resource settings. In particular, we present a single model for 5 low-resource languages (Gujarati, Kazakh, Nepali, Sinhala, and Turkish) to and from English directions, which leverages monolingual and auxiliary parallel data from other high-resource language pairs via a three-stage training scheme. We outperform all current state-of-the-art unsupervised baselines for these languages, achieving gains of up to 14.4 BLEU. Additionally, we outperform strong supervised baselines for various language pairs as well as match the performance of the current state-of-the-art supervised model for Nepali-English. We conduct a series of ablation studies to establish the robustness of our model under different degrees of data quality, as well as to analyze the factors which led to the superior performance of the proposed approach over traditional unsupervised models.
المراجع المستخدمة
https://aclanthology.org/
بالنسبة لمعظم مجموعات اللغة والبيانات الموازية إما نادرة أو غير متوفرة ببساطة.لمعالجة هذا والترجمة الآلية غير المرفوعة (UMT) باستغلال كميات كبيرة من البيانات الأحادية من خلال استخدام تقنيات توليد البيانات الاصطناعية مثل الترجمة الخلفية والتوزيع وبينم
من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من الم
أصبحت الترجمة المرجودة (BT) واحدة من مكونات الأمر الواقع في الترجمة الآلية العصبية غير المنشأة (UNMT)، ويجعل صراحة لديها القدرة على الترجمة. ومع ذلك، يتم التعامل مع جميع النصوص الثنائية الزائفة التي تم إنشاؤها بواسطة BT بنفس القدر كبيانات نظيفة أثناء
عادة ما يتم تكليف الترجمة الآلية العصبية متعددة الموارد (MNMT) بتحسين أداء الترجمة على أزواج لغة واحدة أو أكثر بمساعدة أزواج لغة الموارد عالية الموارد.في هذه الورقة، نقترح اثنين من المناهج البحث البسيطة القائمة على البحث - طلب بيانات التدريب المتعدد
نماذج الترجمة العصبية متعددة اللغات تعامل مع لغة مصدر واحدة في وقت واحد.ومع ذلك، فقد أظهر العمل السابق أن الترجمة من لغات مصدر متعددة تعمل على تحسين جودة الترجمة.تختلف عن الأساليب الحالية على الترجمة المتعددة المصدر التي تقتصر على سيناريو الاختبار حي