مشاركة Nectec في WAT-2021


الملخص بالعربية

في هذه الورقة، نبلغ عن النتائج التجريبية لنماذج الترجمة الآلية التي أجرتها فريق Nectec لمهام ترجمة WAT-2021. أساسا، تستند نماذجنا إلى الأساليب العصبية لكلا اتجاهين أزواج اللغة الإنجليزية ميانمار وميانمار الإنجليزية. تركز معظم نماذج الترجمة العصبية الحالية (NMT) بشكل أساسي على تحويل البيانات المتسلسلة ولا تستخدم المعلومات الأساسية مباشرة. ومع ذلك، فإننا نقوم بإجراء نماذج الترجمة الآلية المتعددة المصدر (NMT) باستخدام Corpora متعددة اللغات مثل Corpus State Data Corpus أو Corpus Data Data Corpus، أو Corpus Data Data Pos-Deagged. الترجمة متعددة المصادر هي نهج لاستغلال مدخلات متعددة (على سبيل المثال بتنسيقتين مختلفتين) لزيادة دقة الترجمة. تم تنفيذ نموذج ترميز التشفير القائم على RNN مع آلية الاهتمام وبنية المحولات لتجرينا. أظهرت النتائج التجريبية أن النماذج المقترحة من الهندسة المعمارية القائمة على RNN تتفوق على نموذج خط الأساس لمهمة الترجمة الإنجليزية إلى ميانمار، ونماذج المحولات متعددة المصدر والمشتركة متعددة المصدر تحقق نتائج ترجمة أفضل من الأساس.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث