تقييم الترجمة المجانية للكلمة والجملة المرجعية مع مقاييس مطابقة للماء


الملخص بالعربية

تعتمد العديد من مقاييس تقييم الترجمة الآلية الحديثة مثل Bertscore، Bleurt، Comet، Monotransquest أو xmovercore على نماذج لغة Black-Box.وبالتالي، من الصعب شرح سبب إرجاع هذه المقاييس درجات معينة.تعالج المهمة المشتركة Eval4NLP لهذا العام هذا التحدي من خلال البحث عن طرق يمكن استخراجها من الدرجات ذات الأهمية التي ترتبط بشكل جيد مع التعليقات التوضيحية خطأ على مستوى الكلمات البشرية.في هذه الورقة نظهر أن المقاييس غير المزدئة التي تستند إلى TokenMatching يمكن أن توفر جوهرية مثل هذه الدرجات.يفسر النظام المقدم على أوجه التشابه في تضمين الكلمات السياقية المستخدمة لحساب (x) BertScore كأهمية ذات أهمية على مستوى الكلمة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث