ترغب بنشر مسار تعليمي؟ اضغط هنا

الخبراء والأخطاء والسياق: دراسة واسعة النطاق للتقييم البشري للترجمة الآلية

Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation

572   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التقييم البشري التجريدي لأنظمة الترجمة عالية الجودة الحديثة هي مشكلة صعبة، وهناك أدلة متزايدة على أن إجراءات التقييم غير الكافية يمكن أن تؤدي إلى استنتاجات خاطئة. بينما كان هناك بحث كبير في التقييم البشري، لا يزال الحقل يفتقر إلى إجراء قياسي شائع. كخطوة نحو هذا الهدف، نقترح منهجية تقييم في تحليل خطأ صريح، استنادا إلى إطار مقاييس الجودة متعددة الأبعاد (MQM). نحن نفذت أكبر دراسة بحثية MQM حتى الآن، وتسجيل مخرجات الأنظمة العليا من المهمة المشتركة WMT 2020 في أزواج لغتين باستخدام التعليقات التوضيحية المقدمة من المترجمين المحترفين مع الوصول إلى سياق المستند الكامل. نقوم بتحليل البيانات الناتجة على نطاق واسع، والعثور على نتائج أخرى بمثابة ترتيب مختلف تماما للأنظمة المقدرة من تلك المنشأة من قبل عمال الحشد WMT، تعرض تفضيل واضح لإخراج الإنسان على الجهاز. من المستغرب، نجد أيضا أن المقاييس التلقائية القائمة على المدينات المدربة مسبقا يمكن أن تفوق عمال الحشد البشري. نحن نجعل كوربوس متاحة علنا ​​لمزيد من البحث.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

دفعت التطورات الحديثة في الترجمة الآلية العصبية (NMT) جودة أنظمة الترجمة الآلية إلى النقطة التي أصبحوا فيها اعتمادها على نطاق واسع لبناء أنظمة تنافسية. ومع ذلك، لا يزال هناك عدد كبير من اللغات التي لم تجنيها بعد فوائد NMT. في هذه الورقة، نقدم أول درا سة حالة واسعة النطاق للتطبيق العملي ل MT في عائلة اللغة التركية من أجل تحقيق مكاسب NMT للغات التركية تحت الموارد عالية الموارد إلى سيناريوهات منخفضة للغاية الموارد. بالإضافة إلى تقديم تحليل واسع النطاق يحدد الاختناقات نحو بناء أنظمة تنافسية لتحسين ندرة البيانات، فإن دراستنا لديها العديد من المساهمات الرئيسية، بما في ذلك، طن موازي كبير يغطي 22 لغة تركية تتكون من مجموعات بيانات عامة مشتركة مع مجموعات بيانات جديدة من ما يقرب من 1.4 مليون جمل موازية، 2) خطوط أساس ثنائية اللغة ل 26 أزواج لغة، III) مجموعات اختبار عالية الجودة الرواية في ثلاثة مجالات ترجمة مختلفة و 4 درجات التقييم البشري. سيتم إصدار جميع النماذج والبرامج النصية والبيانات للجمهور.
تؤكد الدراسات الحديثة على حاجة إلى سياق وثائق في التقييم البشري لترجمات الماكينة، لكن القليل من الأبحاث قد تم في تأثير واجهات المستخدم على الإنتاجية العنصرية وموثوقية التقييمات.في هذا العمل، نقوم بمقارنة بيانات التقييم البشري من أحدث حملتين تقييمين م ن WMT التي تم جمعها عبر طريقتين مختلفتين لتقييم مستوى المستندات.يوضح تحليلنا أن اتباع نهج تركز على المستندات في التقييم حيث يتم عرض العنصي مع سياق المستند بأكمله على الشاشة يؤدي إلى تقييمات أعلى جودة ومستوى المستندات.إنه يحسن الارتباط بين القطاع وعشرات المستندات ويزيد من اتفاقية المشتركة بين النقاط عن درجات الوثائق ولكنها أكثر بكثير من الوقت المستهلكة للمعجبين.
يقدم هذا العمل ITIHASA، مجموعة بيانات ترجمة واسعة النطاق تحتوي على 93،000 زوج من Sanskrit Shlokas وترجماتها الإنجليزية.يتم استخراج شلوكاس من اثنين من الملصفات الهندية بمعنى.، رامايانا وماهاوصفنا أولا الدافع وراء عمالة مثل هذه البيانات ومتابعة التحليل التجريبي لإظهار الفروق الدقيقة.ثم نقاشنا بعد أداء نماذج الترجمة القياسية في هذه الجثة وإظهار أنه حتى بديهيات المحولات الحديثة تؤدي بشكل سيء، مع التركيز على تعقيد مجموعة البيانات.
يظهر التطوير الحديث في NLP اتجاها قويا نحو تكرير النماذج المدربة مسبقا مع مجموعة بيانات خاصة بالمجال. هذا هو الحال بشكل خاص لتوليد الاستجابة حيث تلعب العاطفة دورا مهما. ومع ذلك، لا تزال مجموعات البيانات المتعاطفية الحالية صغيرة وتأخير الجهود البحثية في هذا المجال، على سبيل المثال، تطوير Chatement-Aware Chatbots. كان التحدي الفني الرئيسي واحد هو تكلفة التسجيل يدويا الحوارات مع ملصقات العاطفة المناسبة. في هذه الورقة، نصف مجموعة بيانات فضية واسعة النطاق تتكون من حوارات من 1M المشروح ب 32 عواطف دقيقة، وثمانية نوايا استجابة متعاطفية، والفئة المحايدة. لتحقيق هذا الهدف، قمنا بتطوير خط أنابيب لجنة البيانات الرواية بدءا من بذرة صغيرة من البيانات المشروحة يدويا وتوسيع نطاقها في نهاية المطاف إلى حجم مرض. قمنا بمقارنة جودةها مقابل مجموعة بيانات ذهبية أحدث باستخدام كل من التجارب دون اتصال وطرائق التحقق من الصحة. يمكن استخدام الإجراء الناتج لإنشاء مجموعات بيانات مماثلة في نفس المجال وكذلك في المجالات الأخرى.
تحسنت تقسيم الصور التلقائي بشكل كبير خلال السنوات القليلة الماضية، لكن المشكلة بعيدة عن حلها، حيث لا تزال حالة من النماذج الفنية غالبا ما تنتج توضيحات منخفضة الجودة عند استخدامها في البرية. في هذه الورقة، نركز على مهمة تقدير الجودة (QE) للحصول على تع ليق الصور، والتي تحاول طراز جودة التسمية التوضيحية من منظور إنساني و * بدون * الوصول إلى مراجع الحقيقة الأرضية، بحيث يمكن تطبيقها في وقت التنبؤ للكشف عن التسميات التوضيحية منخفضة الجودة المنتجة على * الصور غير المرئية سابقا *. بالنسبة لهذه المهمة، نقوم بتطوير عملية تقييم بشرية تقوم بجمع التعليقات التوضيحية الشعوية من المستخدمين من مستخدمي الجماعة الجماعية، والتي يتم استخدامها بعد ذلك لجمع مجموعة بيانات كبيرة الحجم تمتد أكثر من 600 كيلو بايت تصنيفات جودة التسمية التوضيحية. ثم صرفها بعناية جودة التصنيفات التي تم جمعها وإنشاء نماذج أساسية لهذه المهمة الجديدة في QE. أخيرا، سنقوم بزيادة جمع التعليقات التوضيحية ذات جودة التسمية التوضيحية الجميلة من الدراسات المدربة، واستخدامها لإظهار أن نماذج QE التي تم تدريبها على التصنيفات الخشنة يمكن أن تكتشف بشكل فعال وتصفية التسميات التوضيحية ذات الجودة المنخفضة الجودة، وبالتالي تحسين تجربة المستخدم من أنظمة التسمية التوضيحية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا