ترغب بنشر مسار تعليمي؟ اضغط هنا

NHK's Translation العصبية المقيدة من NHK في WAT 2021

NHK's Lexically-Constrained Neural Machine Translation at WAT 2021

550   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة نظام فريقنا (NHK) لمهمة ترجمة الآلة اليابانية والإنجليزية اليابانية والإنجليزية.في هذه المهمة، الهدف هو تحسين الجودة مع الحفاظ على مصطلحات ثابتة للترجمة الورقية العلمية.هذه المهمة لها ميزة فريدة من نوعها، حيث يتم تقديم بعض الكلمات في جملة مستهدفة بالإضافة إلى جملة مصدر.في هذه الورقة، نستخدم ترجمة آلية عصبية مقيدة متعمدة (NMT)، والتي تسلحن جملة المصدر والكلمات المقيدة مع رمز خاص لإدخالها في تشفير NMT.مفتاح NMT الناجح المقيد متعمدا هو الطريق لاستخراج القيود من الجملة المستهدفة من بيانات التدريب.نقترح طريقين استخراجي: القيد الأساسي الصحيح وعيد الكلمة.هاتان الطريقتين يعتبران أهمية الكلمات والخلط في NMT، على التوالي.تظهر نتائج التقييم فعالية طريقة القيد المعجمية لدينا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

توضح هذه الورقة نظام Anvita-1.0 MT، Architeted for Survision To Wath2021 Multiindicmt Task من فريق Mcairt، حيث شارك الفريق في 20 اتجاهات ترجمة: الإنجليزية → Werc و Indic → الإنجليزية؛ تشدد مجموعة تشل من 10 لغات هندية. نظام Anvita-1.0 MT يتكون من نماذ ج NMT متعددة اللغات واحد للغة الإنجليزية → اتجاهات MEDISTION وغيرها من الإرشادات وغيرها من الإرشادات الإنجليزية مع فك التشفير المشترك، والتموين 10 أزواج اللغة والعشرون اتجاهي الترجمة. بنيت النماذج الأساسية بناء على بنية المحولات وتدريبها على Multiindicmt Wat 2021 Corpora وزيادة الترجمة والترجمة الترجمة والترجمة الخاصة بتزوير البيانات الانتقائية، وفرقة نموذجية لتحسين التعميم. بالإضافة إلى ذلك، تم تقطير Multiindicmt Wat 2021 Corpora باستخدام سلسلة من عمليات التصفية قبل طرح التدريب. anvita-1.0 حقق أعلى درجة AM-FM النتيجة للغة الإنجليزية → البنغالية، 2nd للغة الإنجليزية → التاميل و 3 للإنجليزية → الهندية، البنغالية → الإنجليزية الاتجاهات في مجموعة الاختبار الرسمية. بشكل عام، فإن الأداء الذي حققه Anvita للتشج ← اتجاهات إنجليزية أفضل نسبيا من أن الإنجليزي → اتجاهات MEDIAL لجميع أزواج اللغة 10 عند تقييمها باستخدام Bleu and Ribes، على الرغم من أن الاتجاه نفسه غير مريح باستمرار عند تقييم AM-FM نفذت. بالمقارنة مع Bleu، فإن RIBES و AM-FM تستند إلى أنفيتا أفضل نسبيا بين جميع المشاركين المهام.
في هذه الورقة، نقوم بصف أن نقوم بتقديم طلباتنا إلى WAT-2021 (Nakazawa et al.، 2021) لمهمة اللغة الإنجليزية إلى ميانمار (بورمي).فريقنا، ID: YCC-MT1 ''، ركز على جلب معرفة حرفية إلى وحدة فك الترميز دون تغيير النموذج.لقد استخرجنا يدويا أزواج الكلمة / عبا رة الترجمة من ALT Corpus وتطبيق ميزة علامات XML على وحدة فك ترميز موسى (I.E. -XML-إدخال Exclive، -xml -XML-Input شاملة).نوضح أن تقنية الترجمة الهجينة يمكن أن تتحسن بشكل كبير (حوالي 6 درجات بلو) خط الأساس من ثلاثة SMT '' نموذج تسلسل نموذجي "من العبارات المعروفة القائمة على العبارات المعروفة.علاوة على ذلك، حققت هذه الطريقة الهجينة البسيطة ثاني أعلى النتائج بين أنظمة MT المقدمة لمهمة مشاركة الترجمة الإنجليزي إلى ميسمار WAT2021 وفقا ل Bleu (بابينيني وآخرون، 2002) وعشرات AMFM (Banchs et al.، 2015).
في هذه الورقة، نقدم تفاصيل النظم التي قدمناها مقابل WAT 2021 Multiindicmt: مهمة متعددة اللغات.لقد قدمنا نماذج NMT متعددة اللغات منفصلة: واحد للغة الإنجليزية إلى 10 لغات ind وآخر ل 10 لغات ind للغة الإنجليزية.نناقش تفاصيل تنفيذ نهجين منفصلين متعدد الل غات NMT، وهما واحدا وكثير من الأحيان والعديد من إلى واحد، والذي يستفيد من وحدة فك ترميز مشتركة ومشمير مشترك، على التوالي.من تجاربنا، نلاحظ أن أنظمة NMT متعددة اللغات تتفوق على أنظمة طيران الأساس ثنائية اللغة لكل من أزواج اللغة قيد الدراسة.
الترجمة الآلية العصبية (NMT) هي تكنولوجيا ترجمة آلية سائدة في الوقت الحاضر بسبب مرونةها التدريبية المتنقلة المحيرة.ومع ذلك، لا يزال NMT يكافح من أجل الترجمة بشكل صحيح في إعدادات الموارد المنخفضة خصيصا على أزواج اللغة البعيدة.طريقة واحدة للتغلب على ذل ك هي استخدام المعلومات من طرائق أخرى إذا كانت متوفرة.الفكرة هي أنه على الرغم من الاختلافات في اللغات، فإن كل من المصدر والمتحدثين اللغوي المستهدف يرون نفس الشيء والتمثيل المرئي لكل من المصدر والهدف هو نفسه، والذي يمكن أن يساعد النظام بشكل إيجابي.يمكن أن تساعد المعلومات متعددة الوسائط نظام NMT لتحسين الترجمة عن طريق إزالة الغموض على بعض العبارات أو الكلمات.نحن نشارك في ورشة العمل الثامنة حول الترجمة الآسيوية (WAT - 2021) لمهمة الترجمة الإنجليزية العربية الهندية وتحقيق 42.47 و 37.50 نقطة بلو للتقييم والتحدي الفرعي، على التوالي.
في هذه الورقة، نبلغ عن النتائج التجريبية لنماذج الترجمة الآلية التي أجرتها فريق Nectec لمهام ترجمة WAT-2021. أساسا، تستند نماذجنا إلى الأساليب العصبية لكلا اتجاهين أزواج اللغة الإنجليزية ميانمار وميانمار الإنجليزية. تركز معظم نماذج الترجمة العصبية ال حالية (NMT) بشكل أساسي على تحويل البيانات المتسلسلة ولا تستخدم المعلومات الأساسية مباشرة. ومع ذلك، فإننا نقوم بإجراء نماذج الترجمة الآلية المتعددة المصدر (NMT) باستخدام Corpora متعددة اللغات مثل Corpus State Data Corpus أو Corpus Data Data Corpus، أو Corpus Data Data Pos-Deagged. الترجمة متعددة المصادر هي نهج لاستغلال مدخلات متعددة (على سبيل المثال بتنسيقتين مختلفتين) لزيادة دقة الترجمة. تم تنفيذ نموذج ترميز التشفير القائم على RNN مع آلية الاهتمام وبنية المحولات لتجرينا. أظهرت النتائج التجريبية أن النماذج المقترحة من الهندسة المعمارية القائمة على RNN تتفوق على نموذج خط الأساس لمهمة الترجمة الإنجليزية إلى ميانمار، ونماذج المحولات متعددة المصدر والمشتركة متعددة المصدر تحقق نتائج ترجمة أفضل من الأساس.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا