ترغب بنشر مسار تعليمي؟ اضغط هنا

النهج الحالي لجمع الأحكام البشرية لجودة الترجمة الآلية لمهمة الترجمة الأخبار في WMT - تصنيف القطاع مع سياق المستند - هو الأحدث في سلسلة من التغييرات في بروتوكول التعليق البشري WMT.نظرا لأن البروتوكولات التوضيحية هذه تغيرت مع مرور الوقت، فقد انجرفت بع يدا عن بعض الافتراضات الإحصائية الأولية التي تدعمها، مع عواقب تسمون صحة تصنيفات نظام المهام الأخبار WMT إلى سؤال.في المحاكاة بناء على البيانات الحقيقية، نوضح أن التصنيفات يمكن أن تتأثر بوجود القيم المتطرفة (أنظمة عالية الجودة أو منخفضة الجودة)، مما أدى إلى تصنيفات ونظام مختلفة.ونحن ندرس أيضا أسئلة تكوين مهمة التوضيحية وكيف قد تؤثر سهولة ترجم أو صعوبة ترجمة المستندات المختلفة في تصنيفات النظام.نحن نقدم مناقشة طرق لتحليل هذه القضايا عند النظر في التغييرات المستقبلية في بروتوكولات التعليق التوضيحي.
تستخدم المقاييس التلقائية عادة كأداة حصرية للإعلان عن تفوق نوعية نظام ترجمة جهاز واحد على آخر. الاختيار المجتمعي من توجيهات البحث التلقائي للأدلة والتطورات الصناعية عن طريق تحديد النماذج التي تعتبر أفضل. كان تقييم ارتباطات المقاييس مع مجموعات من الأح كام البشرية محدودة بحجم هذه المجموعات. في هذه الورقة، نؤكد كيف تناقض مقاييس الموثوق بها في الأحكام الإنسانية - على حد علمنا - أكبر مجموعة من الأحكام المبلغ عنها في الأدب. يمكن القول إن تصنيفات الزوجية من أنظمتين هي المهام التقييم الأكثر شيوعا في سيناريوهات البحث أو النشر. أخذ الحكم البشري كمعيار ذهبي، فإننا نحص على ما يقسمه أعلى دقة في التنبؤ بتصنيفات جودة الترجمة لمثل هذا أزواج النظام. علاوة على ذلك، نقوم بتقييم أداء مقاييس مختلفة عبر أزواج ومجال بلغات مختلفة. وأخيرا، نوضح أن الاستخدام الوحيد لبليو يعيق تطوير النماذج المحسنة المؤدية إلى قرارات النشر السيئة. نفرج عن مجموعة من الأحكام الإنسانية الإنسانية على مستوى الجملة 2.3 مليون ل 4380 أنظمة لمزيد من التحليل وتكرار عملنا.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا