ترغب بنشر مسار تعليمي؟ اضغط هنا

نحو تقييم MT البشري على مستوى المستند: حول قضايا اتفاقية المعلقين، الجهد والهيسيفال

Towards Document-Level Human MT Evaluation: On the Issues of Annotator Agreement, Effort and Misevaluation

201   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

كان التقييم البشري على مستوى المستند للترجمة الآلية (MT) يثير اهتماما بالمجتمع.ومع ذلك، يعرف القليل عن قضايا استخدام منهجيات مستوى المستند لتقييم جودة MT.في هذه المقالة، نقارن نتائج اتفاقية Insent-Annotator (IAA)، والجهد لتقييم الجودة في منهجيات مختلفة على مستوى المستندات، وقضية رسالة التسليم عند تقييم الأحكام خارج السياق.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تؤكد الدراسات الحديثة على حاجة إلى سياق وثائق في التقييم البشري لترجمات الماكينة، لكن القليل من الأبحاث قد تم في تأثير واجهات المستخدم على الإنتاجية العنصرية وموثوقية التقييمات.في هذا العمل، نقوم بمقارنة بيانات التقييم البشري من أحدث حملتين تقييمين م ن WMT التي تم جمعها عبر طريقتين مختلفتين لتقييم مستوى المستندات.يوضح تحليلنا أن اتباع نهج تركز على المستندات في التقييم حيث يتم عرض العنصي مع سياق المستند بأكمله على الشاشة يؤدي إلى تقييمات أعلى جودة ومستوى المستندات.إنه يحسن الارتباط بين القطاع وعشرات المستندات ويزيد من اتفاقية المشتركة بين النقاط عن درجات الوثائق ولكنها أكثر بكثير من الوقت المستهلكة للمعجبين.
في الآونة الأخيرة، أصبح مجتمع الترجمة الآلية أكثر اهتماما بالتقييم على مستوى المستندات خاصة في ضوء ردود الفعل على مطالبات التكافؤ البشري "، لأن دراسة الجودة على مستوى الوثيقة بدلا من مستوى الحكم يسمح بذلكتقييم السياق Suprasententents، توفير تقييم أكث ر موثوقية.تقدم هذه الورقة كوربوس على مستوى المستند بشرط باللغة الإنجليزية مع مشكلات واضحة للسياق التي تنشأ عند ترجمة من الإنجليزية إلى البرتغالية البرازيلية، وهي القطع القطع والجنس والغميات المعجمية والعدد والمرجعية والمصطلحات، مع ستة مجالات مختلفة.يمكن استخدام Corpus كمجموعة اختبار تحدي للتقييم وكجور تدريب / اختبار لتدريب / اختبار ل MT وكذلك للتحليل اللغوي العميق لقضايا السياق.إلى حد ما من معرفتنا، هذه هي أول لجنة من نوعها.
إن استخراج العلاقات على مستوى المستند هو مهمة صعبة، تتطلب التفكير في جمل متعددة للتنبؤ بمجموعة من العلاقات في وثيقة.في هذه الورقة، نقترح إطار رواية E2GRE (الكيان والأدلة استخراج التعادل الموجود) التي تستخرج العلاقات بشكل مشترك وعمليات الأدلة الأساسية باستخدام نموذج اللغة المسبق الكبير (LM) كمشفر مدخلات.أولا، نقترح توجيه آلية انتباه LM مسبقا للتركيز على السياق ذي الصلة باستخدام احتمالات الاهتمام كميزات إضافية لتنبؤ الأدلة.علاوة على ذلك، بدلا من إطعام المستند بأكمله إلى LMS محداس للحصول على تمثيل كيان، نسلسل نص المستندات مع كيانات رئيسية للمساعدة في تركيز LMS على أجزاء من الوثيقة التي ترتبط أكثر بكيان الرأس.تتعلم E2GRE لدينا بشكل مشترك استخراج العلاقة والتنبؤ بالأدلة بفعالية، مما يدل على مكاسب كبيرة على كل من هذه المهام، والتي نجدها مرتبطة بشدة.
غالبا ما يتم انتقاد حلول التعلم الآلية لعدم وجود شرح لنجاحاتها وفشلها. فهم المثيلات التي يتم إساءة استخدامها ولماذا ضرورية لتحسين عملية التعلم. يساعد هذا العمل في ملء هذه الفجوة من خلال اقتراح منهجية تميز، حدد وقياس تأثير مثيلات صعبة في مهمة تصنيف ال قطبية لمراجعات الأفلام. نحن نميز هذه الحالات إلى فئتين: الحياد، حيث لا ينقل النص قطبية واضحة، والتناقض، حيث يكون قطبية النص هو عكس تصنيفها الحقيقي. نحدد عدد الحالات الصعبة في تصنيف القطبية لمراجعات الأفلام وتوفير الأدلة التجريبية حول الحاجة إلى الانتباه إلى مثل هذه الحالات الإشكالية، لأنها أصعب بكثير تصنيفها، لكلا الجهازين والصفوف البشري. إلى حد ما من معرفتنا، هذا هو أول تحليل منهجي لتأثير المثيلات الصلبة في الكشف عن القطبية من الاستعراضات النصية المكونة بشكل جيد.
تبسيط النص هو تقنية قيمة.ومع ذلك، يقتصر البحث الحالي على تبسيط الجملة.في هذه الورقة، نحدد والتحقيق في مهمة جديدة من تبسيط نص المستندات على مستوى المستند، والتي تهدف إلى تبسيط وثيقة تتكون من جمل متعددة.بناء على مقالب ويكيبيديا، نقوم أولا ببناء مجموعة بيانات واسعة النطاق تسمى D-Wikipedia وأداء التحليل والتقييم البشري عليه لإظهار أن مجموعة البيانات موثوقة.بعد ذلك، نقترح مقياس تقييم تلقائي جديد يسمى D-SARI هو أكثر ملاءمة لمهمة تبسيط مستوى المستند.أخيرا، نقوم باختيار العديد من النماذج التمثيلية كطرازات أساسية لهذه المهمة وأداء التقييم التلقائي والتقييم البشري.نحن نحلل النتائج وأشرح أوجه القصور في النماذج الأساسية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا