ترغب بنشر مسار تعليمي؟ اضغط هنا

مشاركة Rakuten في Wat 2021: فحص فعالية النماذج المدربة مسبقا للترجمة متعددة اللغات والمعددية

Rakuten's Participation in WAT 2021: Examining the Effectiveness of Pre-trained Models for Multilingual and Multimodal Machine Translation

594   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة مشاركة أنظمة الترجمة الآلية العصبية في مهام الترجمة المشتركة WAT 2021 (معرف الفريق: ساكورا).شاركنا في (I) NIST-SAP، (2) ترجمة متعددة الوسائط اليابانية-الإنجليزية، (III) متعددة اللغات، و (4) مهام الترجمة الإنجليزية Myanmar-English.مناهج متعددة اللغات مثل MBART (ليو وآخرون.، 2020) قادرون على تدريب ما قبل التدريب على نموذج تسلسل كامل وتسلسل إلى متعدد اللغات من خلال الأهداف المنقحية، مما يجعلها نقطة انطلاق رائعة لبناء أنظمة الترجمة متعددة اللغات.التركيز الرئيسي لدينا في هذا العمل هو التحقيق في فعالية Finetuning متعددة اللغات في نموذج لغة متعددة اللغات على مهام الترجمة المختلفة، بما في ذلك ترجمة الموارد المنخفضة والمتعددة الوسائط والمختلطة.نسمح أيضا نهجا متعدد الوسائط بناء على التمثيل المرئي العالمي (تشانغ وآخرون، 2019) ومقارنة أدائه ضد نهج غير مهني بناء على MBART بمفرده.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

هل يمكن لصق Bert مدربة مسبقا بلغة واحدة و GPT لآخر لترجمة النصوص؟يؤدي التدريب للإشراف على الذات باستخدام بيانات أحادية الأونلينغ فقط إلى نجاح نماذج اللغة المدربة مسبقا (ملثمين) في العديد من مهام NLP.ومع ذلك، فإن ربط بيرت مباشرة كتشفير و GPT حيث أن وح دة فك ترميز يمكن أن يكون تحديا في الترجمة الآلية، وفصول النماذج التي تشبه gpt إلى مكون متقاطع مكون مطلوب في فك تشفير SEQ2SEQ.في هذه الورقة، نقترح Graformer إلى الكسب غير المشروع نماذج اللغة المدربة مسبقا (ملثمين) للترجمة الآلية.مع بيانات أحادية الأبعاد لبيانات التدريب المسبق والتوازي لتدريب تطعيم، نستفيد إلى حد ما من استخدام كلا النوعين من البيانات.تظهر التجارب في 60 اتجاهات أن طريقتنا تحقق متوسط التحسينات من 5.8 بلو في X2EN و 2.9 بلو في اتجاهات EN2X مقارنة مع المحول متعدد اللغات من نفس الحجم.
في هذه الورقة، نبلغ عن النتائج التجريبية لنماذج الترجمة الآلية التي أجرتها فريق Nectec لمهام ترجمة WAT-2021. أساسا، تستند نماذجنا إلى الأساليب العصبية لكلا اتجاهين أزواج اللغة الإنجليزية ميانمار وميانمار الإنجليزية. تركز معظم نماذج الترجمة العصبية ال حالية (NMT) بشكل أساسي على تحويل البيانات المتسلسلة ولا تستخدم المعلومات الأساسية مباشرة. ومع ذلك، فإننا نقوم بإجراء نماذج الترجمة الآلية المتعددة المصدر (NMT) باستخدام Corpora متعددة اللغات مثل Corpus State Data Corpus أو Corpus Data Data Corpus، أو Corpus Data Data Pos-Deagged. الترجمة متعددة المصادر هي نهج لاستغلال مدخلات متعددة (على سبيل المثال بتنسيقتين مختلفتين) لزيادة دقة الترجمة. تم تنفيذ نموذج ترميز التشفير القائم على RNN مع آلية الاهتمام وبنية المحولات لتجرينا. أظهرت النتائج التجريبية أن النماذج المقترحة من الهندسة المعمارية القائمة على RNN تتفوق على نموذج خط الأساس لمهمة الترجمة الإنجليزية إلى ميانمار، ونماذج المحولات متعددة المصدر والمشتركة متعددة المصدر تحقق نتائج ترجمة أفضل من الأساس.
في هذه الورقة، نقدم تفاصيل النظم التي قدمناها مقابل WAT 2021 Multiindicmt: مهمة متعددة اللغات.لقد قدمنا نماذج NMT متعددة اللغات منفصلة: واحد للغة الإنجليزية إلى 10 لغات ind وآخر ل 10 لغات ind للغة الإنجليزية.نناقش تفاصيل تنفيذ نهجين منفصلين متعدد الل غات NMT، وهما واحدا وكثير من الأحيان والعديد من إلى واحد، والذي يستفيد من وحدة فك ترميز مشتركة ومشمير مشترك، على التوالي.من تجاربنا، نلاحظ أن أنظمة NMT متعددة اللغات تتفوق على أنظمة طيران الأساس ثنائية اللغة لكل من أزواج اللغة قيد الدراسة.
الترجمة الآلية العصبية (NMT) هي تكنولوجيا ترجمة آلية سائدة في الوقت الحاضر بسبب مرونةها التدريبية المتنقلة المحيرة.ومع ذلك، لا يزال NMT يكافح من أجل الترجمة بشكل صحيح في إعدادات الموارد المنخفضة خصيصا على أزواج اللغة البعيدة.طريقة واحدة للتغلب على ذل ك هي استخدام المعلومات من طرائق أخرى إذا كانت متوفرة.الفكرة هي أنه على الرغم من الاختلافات في اللغات، فإن كل من المصدر والمتحدثين اللغوي المستهدف يرون نفس الشيء والتمثيل المرئي لكل من المصدر والهدف هو نفسه، والذي يمكن أن يساعد النظام بشكل إيجابي.يمكن أن تساعد المعلومات متعددة الوسائط نظام NMT لتحسين الترجمة عن طريق إزالة الغموض على بعض العبارات أو الكلمات.نحن نشارك في ورشة العمل الثامنة حول الترجمة الآسيوية (WAT - 2021) لمهمة الترجمة الإنجليزية العربية الهندية وتحقيق 42.47 و 37.50 نقطة بلو للتقييم والتحدي الفرعي، على التوالي.
تصف هذه الورقة العمل والأنظمة المقدمة من فريق IIIT-HYDERBAD في مهمة WAT 2021 Multiindicmt المشتركة. تغطي المهمة 10 لغات رئيسية من شبه القارة الهندية. بالنسبة لنطاق هذه المهمة، قمنا ببناء أنظمة متعددة اللغات لمدة 20 ساعة توسيعية وهي الإنجليزية-MED (ON E-LICONE) وإرش إنجليزي (كثير إلى واحد). منفردة، اللغات الهندية هي فقراء الموارد التي تعيق جودة الترجمة ولكن من خلال الاستفادة من تعدد اللغات والهدوضة غير اللغوية والنباتية، يمكن تعزيز جودة الترجمة بشكل كبير. لكن أنظمة متعددة اللغات معقدة للغاية من حيث الوقت وكذلك الموارد الحسابية. لذلك، نحن ندرب أنظمتنا من خلال إلقاء البيانات الكفاءة التي سيساهم في الواقع في معظم عملية التعلم. علاوة على ذلك، نحن نستغل أيضا اللغة المتعلقة بعثر بين اللغات الهندية. تم إجراء جميع المقارنات باستخدام نقاط بلو ووجدت أن نظامنا متعدد اللغات النهائي يتفوق بشكل كبير على خطوط الأساس بمعدل 11.3 و 19.6 نقاط بلو لترويج الإنجليزي (EN-XX) وإرادي الإنشاءات الإنجليزي (XX-EN) ، على التوالى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا