PHOMT: مجموعة بيانات معيار عالية الجودة وعالية المستوى للترجمة الفيتنامية-الإنجليزية


الملخص بالعربية

نقدم مجموعة بيانات موازية فيتنامية عالية الجودة ومقدمة على نطاق واسع من أزواج الجملة بنسبة 3.02m، والتي تبلغ 2.9 مليون أزواج أكبر من كوربوس الترجمة الآلية الفيتنامية-الإنجليزية الفيتنامية - IWSLT15.نقوم بإجراء تجارب تقارن خطوط الأساس العصبية القوية ومحركات الترجمة الآلية المعروفة على مجموعة بياناتنا وتجد أنه في كل من التقييمات التلقائية والإنسانية: يتم الحصول على أفضل أداء من خلال ضبط التسلسل الدقيق للتسلسل المدرب مسبقاوبعدلدينا أفضل معارفنا، هذه هي أول دراسة الترجمة الفيتنامية على نطاق واسع النطاق.نأمل أن تكون مجموعة بياناتنا المتاحة للجمهور ودراستها نقطة انطلاق للبحث والتطبيقات في المستقبل على الترجمة الفيتنامية والترجمة الآلية الإنجليزية.نطلق سراح DataSet لدينا في: https://github.com/vinairesearch/phomt

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث