ترغب بنشر مسار تعليمي؟ اضغط هنا

مشاركة Nectec في WAT-2021

NECTEC's Participation in WAT-2021

513   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نبلغ عن النتائج التجريبية لنماذج الترجمة الآلية التي أجرتها فريق Nectec لمهام ترجمة WAT-2021. أساسا، تستند نماذجنا إلى الأساليب العصبية لكلا اتجاهين أزواج اللغة الإنجليزية ميانمار وميانمار الإنجليزية. تركز معظم نماذج الترجمة العصبية الحالية (NMT) بشكل أساسي على تحويل البيانات المتسلسلة ولا تستخدم المعلومات الأساسية مباشرة. ومع ذلك، فإننا نقوم بإجراء نماذج الترجمة الآلية المتعددة المصدر (NMT) باستخدام Corpora متعددة اللغات مثل Corpus State Data Corpus أو Corpus Data Data Corpus، أو Corpus Data Data Pos-Deagged. الترجمة متعددة المصادر هي نهج لاستغلال مدخلات متعددة (على سبيل المثال بتنسيقتين مختلفتين) لزيادة دقة الترجمة. تم تنفيذ نموذج ترميز التشفير القائم على RNN مع آلية الاهتمام وبنية المحولات لتجرينا. أظهرت النتائج التجريبية أن النماذج المقترحة من الهندسة المعمارية القائمة على RNN تتفوق على نموذج خط الأساس لمهمة الترجمة الإنجليزية إلى ميانمار، ونماذج المحولات متعددة المصدر والمشتركة متعددة المصدر تحقق نتائج ترجمة أفضل من الأساس.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الورقة مشاركة أنظمة الترجمة الآلية العصبية في مهام الترجمة المشتركة WAT 2021 (معرف الفريق: ساكورا).شاركنا في (I) NIST-SAP، (2) ترجمة متعددة الوسائط اليابانية-الإنجليزية، (III) متعددة اللغات، و (4) مهام الترجمة الإنجليزية Myanmar-English.مناه ج متعددة اللغات مثل MBART (ليو وآخرون.، 2020) قادرون على تدريب ما قبل التدريب على نموذج تسلسل كامل وتسلسل إلى متعدد اللغات من خلال الأهداف المنقحية، مما يجعلها نقطة انطلاق رائعة لبناء أنظمة الترجمة متعددة اللغات.التركيز الرئيسي لدينا في هذا العمل هو التحقيق في فعالية Finetuning متعددة اللغات في نموذج لغة متعددة اللغات على مهام الترجمة المختلفة، بما في ذلك ترجمة الموارد المنخفضة والمتعددة الوسائط والمختلطة.نسمح أيضا نهجا متعدد الوسائط بناء على التمثيل المرئي العالمي (تشانغ وآخرون، 2019) ومقارنة أدائه ضد نهج غير مهني بناء على MBART بمفرده.
تقدم هذه الورقة تقديم مختبر Bering إلى المهام المشتركة للورشة الثامنة حول الترجمة الآسيوية (WAT 2021) على JPC2 و SAP.شاركنا في جميع المهام على JPC2 ومهام مجال تكنولوجيا المعلومات على NICT-SAP.نهجنا لجميع المهام يركز بشكل أساسي على بناء أنظمة NMT في ك ورسا خاصة بالمجال.لقد زحفنا أزواج وثيقة براءات الاختراع للغة الإنجليزية اليابانية والصينية اليابانية والكورية واليابانية.بعد تنظيف البيانات الصاخبة، بنينا كوربا متوازيا عن طريق مواءمة هذه الجمل مع درجات التشابه على مستوى الجملة.أيضا، للحصول على بيانات اختبار SAP، جمعنا مجموعة بيانات OPUS بما في ذلك ثلاثة كورسور كورسا.ثم تدريب محول على مجموعة البيانات التي تم جمعها.احتل إرسالنا في المرتبة الأولى في ثمانية من أربعة عشر مهام، وتحقيق ما يصل إلى تحسين 2.87 ل JPC2 و 8.79 ل SAP NIST-SAP في النتيجة بلو.
تصف هذه الورقة نظام فريقنا (NHK) لمهمة ترجمة الآلة اليابانية والإنجليزية اليابانية والإنجليزية.في هذه المهمة، الهدف هو تحسين الجودة مع الحفاظ على مصطلحات ثابتة للترجمة الورقية العلمية.هذه المهمة لها ميزة فريدة من نوعها، حيث يتم تقديم بعض الكلمات في ج ملة مستهدفة بالإضافة إلى جملة مصدر.في هذه الورقة، نستخدم ترجمة آلية عصبية مقيدة متعمدة (NMT)، والتي تسلحن جملة المصدر والكلمات المقيدة مع رمز خاص لإدخالها في تشفير NMT.مفتاح NMT الناجح المقيد متعمدا هو الطريق لاستخراج القيود من الجملة المستهدفة من بيانات التدريب.نقترح طريقين استخراجي: القيد الأساسي الصحيح وعيد الكلمة.هاتان الطريقتين يعتبران أهمية الكلمات والخلط في NMT، على التوالي.تظهر نتائج التقييم فعالية طريقة القيد المعجمية لدينا.
توضح هذه الورقة نظام Anvita-1.0 MT، Architeted for Survision To Wath2021 Multiindicmt Task من فريق Mcairt، حيث شارك الفريق في 20 اتجاهات ترجمة: الإنجليزية → Werc و Indic → الإنجليزية؛ تشدد مجموعة تشل من 10 لغات هندية. نظام Anvita-1.0 MT يتكون من نماذ ج NMT متعددة اللغات واحد للغة الإنجليزية → اتجاهات MEDISTION وغيرها من الإرشادات وغيرها من الإرشادات الإنجليزية مع فك التشفير المشترك، والتموين 10 أزواج اللغة والعشرون اتجاهي الترجمة. بنيت النماذج الأساسية بناء على بنية المحولات وتدريبها على Multiindicmt Wat 2021 Corpora وزيادة الترجمة والترجمة الترجمة والترجمة الخاصة بتزوير البيانات الانتقائية، وفرقة نموذجية لتحسين التعميم. بالإضافة إلى ذلك، تم تقطير Multiindicmt Wat 2021 Corpora باستخدام سلسلة من عمليات التصفية قبل طرح التدريب. anvita-1.0 حقق أعلى درجة AM-FM النتيجة للغة الإنجليزية → البنغالية، 2nd للغة الإنجليزية → التاميل و 3 للإنجليزية → الهندية، البنغالية → الإنجليزية الاتجاهات في مجموعة الاختبار الرسمية. بشكل عام، فإن الأداء الذي حققه Anvita للتشج ← اتجاهات إنجليزية أفضل نسبيا من أن الإنجليزي → اتجاهات MEDIAL لجميع أزواج اللغة 10 عند تقييمها باستخدام Bleu and Ribes، على الرغم من أن الاتجاه نفسه غير مريح باستمرار عند تقييم AM-FM نفذت. بالمقارنة مع Bleu، فإن RIBES و AM-FM تستند إلى أنفيتا أفضل نسبيا بين جميع المشاركين المهام.
تقدم هذه الورقة تقديم مركز خدمات الترجمة Huawei (HW-TSC) إلى مهمة مشتركة من WMT 2021.نستكشف تقنية تقطير الطالبات على مستوى الجملة وتدريب العديد من النماذج الصغيرة التي تجد التوازن بين الكفاءة والجودة.تتميز نماذجنا بمثابة تشفير عميق ومكتشف ضحل وخفيف ا لوزن RNN مع طبقة SSRU.نستخدم بولت هواوي نوح، مكتبة فعالة ووزن خفيفة للاستدلال على الجهاز.الاستفادة من كمية INT8 الكمي، مشغل مصفوفة العام (GEMM) العام المعرفة ذاتيا (GEMM)، القائمة المختصرة، البحث الجشع والتخزين المؤقت، نقدم أربعة نماذج ترجمة صغيرة الحجم وكفاءة مع جودة الترجمة عالية لمسار الكمون CPU واحد.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا