الخبراء والأخطاء والسياق: دراسة واسعة النطاق للتقييم البشري للترجمة الآلية


الملخص بالعربية

التقييم البشري التجريدي لأنظمة الترجمة عالية الجودة الحديثة هي مشكلة صعبة، وهناك أدلة متزايدة على أن إجراءات التقييم غير الكافية يمكن أن تؤدي إلى استنتاجات خاطئة. بينما كان هناك بحث كبير في التقييم البشري، لا يزال الحقل يفتقر إلى إجراء قياسي شائع. كخطوة نحو هذا الهدف، نقترح منهجية تقييم في تحليل خطأ صريح، استنادا إلى إطار مقاييس الجودة متعددة الأبعاد (MQM). نحن نفذت أكبر دراسة بحثية MQM حتى الآن، وتسجيل مخرجات الأنظمة العليا من المهمة المشتركة WMT 2020 في أزواج لغتين باستخدام التعليقات التوضيحية المقدمة من المترجمين المحترفين مع الوصول إلى سياق المستند الكامل. نقوم بتحليل البيانات الناتجة على نطاق واسع، والعثور على نتائج أخرى بمثابة ترتيب مختلف تماما للأنظمة المقدرة من تلك المنشأة من قبل عمال الحشد WMT، تعرض تفضيل واضح لإخراج الإنسان على الجهاز. من المستغرب، نجد أيضا أن المقاييس التلقائية القائمة على المدينات المدربة مسبقا يمكن أن تفوق عمال الحشد البشري. نحن نجعل كوربوس متاحة علنا ​​لمزيد من البحث.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث