ترغب بنشر مسار تعليمي؟ اضغط هنا

على واجهات المستخدم للتقييم البشري على مستوى المستند على نطاق واسع لنواتج الترجمة الآلية

On User Interfaces for Large-Scale Document-Level Human Evaluation of Machine Translation Outputs

413   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تؤكد الدراسات الحديثة على حاجة إلى سياق وثائق في التقييم البشري لترجمات الماكينة، لكن القليل من الأبحاث قد تم في تأثير واجهات المستخدم على الإنتاجية العنصرية وموثوقية التقييمات.في هذا العمل، نقوم بمقارنة بيانات التقييم البشري من أحدث حملتين تقييمين من WMT التي تم جمعها عبر طريقتين مختلفتين لتقييم مستوى المستندات.يوضح تحليلنا أن اتباع نهج تركز على المستندات في التقييم حيث يتم عرض العنصي مع سياق المستند بأكمله على الشاشة يؤدي إلى تقييمات أعلى جودة ومستوى المستندات.إنه يحسن الارتباط بين القطاع وعشرات المستندات ويزيد من اتفاقية المشتركة بين النقاط عن درجات الوثائق ولكنها أكثر بكثير من الوقت المستهلكة للمعجبين.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

توضح هذه الورقة نهجنا للمهمة المشتركة على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع في المؤتمر السادس حول الترجمة الآلية (WMT-21).في هذا العمل، نهدف إلى بناء نظام ترجمة متعددة اللغات واحدا مع فرضية أن تمثيل عالمي عبر اللغة يؤدي إلى أداء ترجمة متع ددة اللغات بشكل أفضل.نحن نقدم استكشاف أساليب الترجمة الخلفي المختلفة من الترجمة الثنائية إلى الترجمة متعددة اللغات.يتم الحصول على أداء أفضل من خلال طريقة أخذ العينات المقيدة، والتي تختلف عن اكتشاف الترجمة الثنائية الثدية.علاوة على ذلك، نستكشف أيضا تأثير المفردات ومقدار البيانات الاصطناعية.والمثير للدهشة أن الحجم الأصغر من المفردات أداء أفضل، وتقدم بيانات اللغة الإنجليزية النائية واسعة النطاق تحسنا متواضعا.لقد أرسلنا إلى كل من المهام الصغيرة وتحقيق المركز الثاني.
في الآونة الأخيرة، تم اقتراح عدد من الأساليب لتحسين أداء الترجمة للترجمة الآلية العصبية على مستوى المستند (NMT). ومع ذلك، فإن القليل من التركيز على موضوع تناسق الترجمة المعجمية. في هذه الورقة، نطبق ترجمة واحدة لكل خطاب "في NMT، وتهدف إلى تشجيع تناسق الترجمة المعجمية ل NMT على مستوى المستند. تتم ثم نشجع ترجمة هذه الكلمات داخل رابط لتكون متسقة بطريقتين. من ناحية، عند ترميز الجمل داخل وثيقة نتخذها بشكل صحيح معلومات السياق من هذه الكلمات. من ناحية أخرى، نقترح وظيفة خسارة مساعدة إلى تقييد أفضل أن ترجمتهم يجب أن تكون متسقة. النتائج التجريبية على الصينية english والإنجليزية → توضح مهام الترجمة الفرنسية أن نهجنا لا يحقق فقط الأداء الحديث في درجات بلو، ولكن أيضا يحسن إلى حد كبير الاتساق المعجمي في الترجمة.
التقييم البشري التجريدي لأنظمة الترجمة عالية الجودة الحديثة هي مشكلة صعبة، وهناك أدلة متزايدة على أن إجراءات التقييم غير الكافية يمكن أن تؤدي إلى استنتاجات خاطئة. بينما كان هناك بحث كبير في التقييم البشري، لا يزال الحقل يفتقر إلى إجراء قياسي شائع. كخ طوة نحو هذا الهدف، نقترح منهجية تقييم في تحليل خطأ صريح، استنادا إلى إطار مقاييس الجودة متعددة الأبعاد (MQM). نحن نفذت أكبر دراسة بحثية MQM حتى الآن، وتسجيل مخرجات الأنظمة العليا من المهمة المشتركة WMT 2020 في أزواج لغتين باستخدام التعليقات التوضيحية المقدمة من المترجمين المحترفين مع الوصول إلى سياق المستند الكامل. نقوم بتحليل البيانات الناتجة على نطاق واسع، والعثور على نتائج أخرى بمثابة ترتيب مختلف تماما للأنظمة المقدرة من تلك المنشأة من قبل عمال الحشد WMT، تعرض تفضيل واضح لإخراج الإنسان على الجهاز. من المستغرب، نجد أيضا أن المقاييس التلقائية القائمة على المدينات المدربة مسبقا يمكن أن تفوق عمال الحشد البشري. نحن نجعل كوربوس متاحة علنا ​​لمزيد من البحث.
يحقق هذا العمل في أنظمة الترجمة الآلية العصبية (NMT) لترجمة مراجعات المستخدم الإنجليزية إلى الكرواتية والصربية، وهنايتان لغات معقدة مماثلة مورفولوجية. يتم استخدام نوعين من المراجعات لاختبار الأنظمة: تقييم الأفلام IMDB ومراجعات منتجات الأمازون. يتم اس تكشاف نوعين من بيانات التدريب: كورسا متوازية كبيرة من النطاق، بالإضافة إلى كوربوس الموازية الاصطناعية الصغيرة التي تم الحصول عليها بواسطة الترجمة الآلية لمراجعات الأمازون الإنجليزية أحادية الأمازون في اللغات المستهدفة. تظهر كل من الدرجات التلقائية والتقييم البشري أن استخدام Corpus في المجال الصناعي مع مجموعة فرعية مختارة من بيانات خارج المجال هو الخيار الأفضل. تشير النتائج المنفصلة على مراجعات IMDB و Amazon إلى أن أنظمة MT تؤدي بشكل مختلف عن أنواع المراجعة المختلفة بحيث لا ينبغي اعتبار مراجعات المستخدمين بشكل عام كندي متجانس. ومع ذلك، فإن البحث أكثر تفصيلا حول أكبر قدر من المراجعات المختلفة التي تغطي النطاقات / الموضوعات المختلفة ضرورية لفهم هذه الاختلافات بشكل كامل.
توضح هذه الورقة نظام الترجمة متعددة الاستخدامات على نطاق واسع ل WMT 2021. نشارك في المسار الصغير 2 في خمسة لغات جنوب شرق آسيا، والثلاثين الاتجاهات: الجاوية، الإندونيسية، الملايو، التاغالوغية، التاميل، الإنجليزية.نحن نستخدم أساسا إلى الأمام / الترجمة إلى الوراء، واختيار بيانات داخل المجال، وقطاع المعرفة، والضبط الجماعي التدريجي من الطراز المدرب مسبقا فلوريس 101.نجد أن الترجمة إلى الأمام / الخلفي يحسن بشكل كبير من نتائج الترجمة، واختيار البيانات والضبط الجمنيات التدريجية فعالة بشكل خاص أثناء مجال التكيف، في حين أن تقطير المعرفة يجلب تحسين أداء طفيف.أيضا، يستخدم متوسط المتوسط لتحسين أداء الترجمة بناء على هذه الأنظمة.يحقق نظامنا النهائي درجة بلو متوسط قدره 28.89 عبر ثلاثين اتجاهين في مجموعة الاختبار.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا