ترغب بنشر مسار تعليمي؟ اضغط هنا

نظام الترجمة NIST-2 في WAT-2021: تطبيق نموذج ترميز الترميز متعدد اللغات مسبقا إلى أزواج لغة الموارد المنخفضة

NICT-2 Translation System at WAT-2021: Applying a Pretrained Multilingual Encoder-Decoder Model to Low-resource Language Pairs

80   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقدم نظام NICT (NICT-2) المقدم إلى المهمة المشتركة NICT-SAP في ورشة العمل الثامنة حول الترجمة الآسيوية (WAT-2021).ميزة نظامنا هي أننا استخدمنا بارت بعدة اللغات المسبقة (محول تراجع ثنائي الاتجاه وتراجع تلقائي؛ نموذج mbart).نظرا لأن النماذج المتاحة للجمهور لا تدعم بعض اللغات في مهمة NIST-SAP، أضفنا هذه اللغات إلى نموذج MBART ثم تدربها باستخدام Orgy Corpora المستخرجة من Wikipedia.نحن نضقل النموذج MBART الموسع باستخدام Corpora الموازي المحدد بواسطة مهمة NIST-SAP.تحسنت درجات بلو بشكل كبير مقارنة بتلك الأنظمة دون النموذج المحدد، بما في ذلك اللغات الإضافية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعدد اللغات T5 Pretrains نموذج تسلسل إلى تسلسل على نصوص أحادية الأبعاد ضخمة، والتي أظهرت نتائج واعدة على العديد من المهام المتبقية اللغوية.في هذه الورقة، نحسن محول نقل النص إلى النص متعدد اللغات مع أزواج الترجمة (MT6).على وجه التحديد، نستكشف ثلاثة مه ام ما قبل التدريب النصي عبر اللغات، وهي الترجمة الآلية، والفساد زوج الترجمة، وتمضم الفساد المشترك.بالإضافة إلى ذلك، نقترح هدف جزئيا غير التلقائي للتدريب المسبق للنص.نقيم الأساليب على سبع مجموعات بيانات معيار متعددة اللغات، بما في ذلك تصنيف الجملة، والاعتراف بالكياء المسمى، والإجابة على الأسئلة، والتلخيص الجماعي.تظهر النتائج التجريبية أن MT6 المقترح يحسن عملية النقل عبر اللغات عبر MT5.
توضح هذه الورقة تقديم TENTRANS إلى مهمة مشتركة من Translation Translation منخفضة اللغات WMT21 لأزواج اللغة الرومانسية.تركز هذه المهمة على تحسين جودة الترجمة من الكاتالونية إلى Occitan والرومانية والإيطالية، بمساعدة لغات الموارد ذات الصلة ذات الصلة.نح ن نستخدم أساسا الترجمة المرجانية، والطرق القائمة على المحور، ونماذج متعددة اللغات، ونقل النموذج المدربين مسبقا، ونقل المعرفة داخل المجال لتحسين جودة الترجمة.في مجموعة الاختبار، يحقق نظامنا الأفضل المقدم بمتوسط 43.45 درجات بلو حساسة لحالة الأحرف عبر جميع أزواج الموارد المنخفضة.تتوفر بياناتنا ورمز النماذج المدربة مسبقا مسبقا في هذا العمل في أمثلة تقييم Tentrans.
في هذه الورقة، نقدم تفاصيل النظم التي قدمناها مقابل WAT 2021 Multiindicmt: مهمة متعددة اللغات.لقد قدمنا نماذج NMT متعددة اللغات منفصلة: واحد للغة الإنجليزية إلى 10 لغات ind وآخر ل 10 لغات ind للغة الإنجليزية.نناقش تفاصيل تنفيذ نهجين منفصلين متعدد الل غات NMT، وهما واحدا وكثير من الأحيان والعديد من إلى واحد، والذي يستفيد من وحدة فك ترميز مشتركة ومشمير مشترك، على التوالي.من تجاربنا، نلاحظ أن أنظمة NMT متعددة اللغات تتفوق على أنظمة طيران الأساس ثنائية اللغة لكل من أزواج اللغة قيد الدراسة.
توضح هذه الورقة نظام Anvita-1.0 MT، Architeted for Survision To Wath2021 Multiindicmt Task من فريق Mcairt، حيث شارك الفريق في 20 اتجاهات ترجمة: الإنجليزية → Werc و Indic → الإنجليزية؛ تشدد مجموعة تشل من 10 لغات هندية. نظام Anvita-1.0 MT يتكون من نماذ ج NMT متعددة اللغات واحد للغة الإنجليزية → اتجاهات MEDISTION وغيرها من الإرشادات وغيرها من الإرشادات الإنجليزية مع فك التشفير المشترك، والتموين 10 أزواج اللغة والعشرون اتجاهي الترجمة. بنيت النماذج الأساسية بناء على بنية المحولات وتدريبها على Multiindicmt Wat 2021 Corpora وزيادة الترجمة والترجمة الترجمة والترجمة الخاصة بتزوير البيانات الانتقائية، وفرقة نموذجية لتحسين التعميم. بالإضافة إلى ذلك، تم تقطير Multiindicmt Wat 2021 Corpora باستخدام سلسلة من عمليات التصفية قبل طرح التدريب. anvita-1.0 حقق أعلى درجة AM-FM النتيجة للغة الإنجليزية → البنغالية، 2nd للغة الإنجليزية → التاميل و 3 للإنجليزية → الهندية، البنغالية → الإنجليزية الاتجاهات في مجموعة الاختبار الرسمية. بشكل عام، فإن الأداء الذي حققه Anvita للتشج ← اتجاهات إنجليزية أفضل نسبيا من أن الإنجليزي → اتجاهات MEDIAL لجميع أزواج اللغة 10 عند تقييمها باستخدام Bleu and Ribes، على الرغم من أن الاتجاه نفسه غير مريح باستمرار عند تقييم AM-FM نفذت. بالمقارنة مع Bleu، فإن RIBES و AM-FM تستند إلى أنفيتا أفضل نسبيا بين جميع المشاركين المهام.
الترجمة الآلية العصبية (NMT) هي تكنولوجيا ترجمة آلية سائدة في الوقت الحاضر بسبب مرونةها التدريبية المتنقلة المحيرة.ومع ذلك، لا يزال NMT يكافح من أجل الترجمة بشكل صحيح في إعدادات الموارد المنخفضة خصيصا على أزواج اللغة البعيدة.طريقة واحدة للتغلب على ذل ك هي استخدام المعلومات من طرائق أخرى إذا كانت متوفرة.الفكرة هي أنه على الرغم من الاختلافات في اللغات، فإن كل من المصدر والمتحدثين اللغوي المستهدف يرون نفس الشيء والتمثيل المرئي لكل من المصدر والهدف هو نفسه، والذي يمكن أن يساعد النظام بشكل إيجابي.يمكن أن تساعد المعلومات متعددة الوسائط نظام NMT لتحسين الترجمة عن طريق إزالة الغموض على بعض العبارات أو الكلمات.نحن نشارك في ورشة العمل الثامنة حول الترجمة الآسيوية (WAT - 2021) لمهمة الترجمة الإنجليزية العربية الهندية وتحقيق 42.47 و 37.50 نقطة بلو للتقييم والتحدي الفرعي، على التوالي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا