في هذه الورقة وصفنا تقديمنا إلى الترجمة متعددة اللغات متعددة اللغات Wtask MulticeIndicMt '' تحت اسم الفريق Nict-5 ''.هذه المهمة تنطوي على الترجمة من 10 لغات ind إلى الإنجليزية والعكس العكس.كان الهدف من المهمة هو استكشاف فائدة النهج متعددة اللغات باستخدام مجموعة متنوعة من المجال والموازيات غير المباشرة وغير المباشرة.بالنظر إلى النجاح الأخير للتعددية العامة للتدريب المسبق ل NMT، قررنا استكشاف ما قبل التدريب نموذج MBART على مجموعة كبيرة من أحادي الأطراف أحادية تغطي جميع اللغات في هذه المهمة متبوعة بضبط متعدد اللغات على الفور في المجال.أولا، لاحظنا أن كمية صغيرة من التدريب المسبق مسبقا تليها ضبط الدقيقة على شركت ثنائية اللغة يمكن أن تسفر عن مكاسب كبيرة عندما لا يتم استخدام التدريب المسبق.علاوة على ذلك، يؤدي الضبط الجمني متعدد اللغات إلى مزيد من المكاسب في جودة الترجمة التي تتفوق بشكل كبير على خط أساسي قوي متعدد اللغات لا يعتمد على أي تدريب مسبق.
In this paper we describe our submission to the multilingual Indic language translation wtask MultiIndicMT'' under the team name NICT-5''. This task involves translation from 10 Indic languages into English and vice-versa. The objective of the task was to explore the utility of multilingual approaches using a variety of in-domain and out-of-domain parallel and monolingual corpora. Given the recent success of multilingual NMT pre-training we decided to explore pre-training an MBART model on a large monolingual corpus collection covering all languages in this task followed by multilingual fine-tuning on small in-domain corpora. Firstly, we observed that a small amount of pre-training followed by fine-tuning on small bilingual corpora can yield large gains over when pre-training is not used. Furthermore, multilingual fine-tuning leads to further gains in translation quality which significantly outperforms a very strong multilingual baseline that does not rely on any pre-training.
المراجع المستخدمة
https://aclanthology.org/
في هذا العمل، نركز على سيناريو عددا أقل تحديا للكشف عن قلة الرصاص حيث يكون العديد من النوايا المحبوسة بشكل جيد ومشبه بشكل صحيح.نقدم مخطط اكتشاف عديدي بسيطة ولكنه فعالة من القلة عبر التدريب المسبق والضبط الناعم الصنع.على وجه التحديد، نقوم أولا بإجراء
تصف هذه الورقة العمل والأنظمة المقدمة من فريق IIIT-HYDERBAD في مهمة WAT 2021 Multiindicmt المشتركة. تغطي المهمة 10 لغات رئيسية من شبه القارة الهندية. بالنسبة لنطاق هذه المهمة، قمنا ببناء أنظمة متعددة اللغات لمدة 20 ساعة توسيعية وهي الإنجليزية-MED (ON
في هذه الورقة، نقوم بصف أن نقوم بتقديم طلباتنا إلى WAT-2021 (Nakazawa et al.، 2021) لمهمة اللغة الإنجليزية إلى ميانمار (بورمي).فريقنا، ID: YCC-MT1 ''، ركز على جلب معرفة حرفية إلى وحدة فك الترميز دون تغيير النموذج.لقد استخرجنا يدويا أزواج الكلمة / عبا
أسفرت صعود النماذج اللغوية المدربة مسبقا تقدما كبيرا في الغالبية العظمى من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، يمكن أن يكون النهج العام باتجاه الإجراء المسبق للتدريب بطبيعة الحال في بعض الحالات. بشكل خاص، قم بضبط نموذج لغة مدرب مسبقا في مجال ا
تقارير هذه الورقة أنظمة الترجمة الآلية المقدمة من فريق IIITT للغة الإنجليزية → أزواج اللغة المهاراتية والإنجليزية أزواج LORESMT 2021 المشاركة المشتركة.تركز المهمة على الحصول على ترجمات استثنائية لغات منخفضة بالموارد منخفضة إلى حد ما مثل الأيرلندية وا