ترغب بنشر مسار تعليمي؟ اضغط هنا

لشحن أو عدم الشحن: تقييم شامل للمقاييس التلقائية للترجمة الآلية

To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation

317   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تستخدم المقاييس التلقائية عادة كأداة حصرية للإعلان عن تفوق نوعية نظام ترجمة جهاز واحد على آخر. الاختيار المجتمعي من توجيهات البحث التلقائي للأدلة والتطورات الصناعية عن طريق تحديد النماذج التي تعتبر أفضل. كان تقييم ارتباطات المقاييس مع مجموعات من الأحكام البشرية محدودة بحجم هذه المجموعات. في هذه الورقة، نؤكد كيف تناقض مقاييس الموثوق بها في الأحكام الإنسانية - على حد علمنا - أكبر مجموعة من الأحكام المبلغ عنها في الأدب. يمكن القول إن تصنيفات الزوجية من أنظمتين هي المهام التقييم الأكثر شيوعا في سيناريوهات البحث أو النشر. أخذ الحكم البشري كمعيار ذهبي، فإننا نحص على ما يقسمه أعلى دقة في التنبؤ بتصنيفات جودة الترجمة لمثل هذا أزواج النظام. علاوة على ذلك، نقوم بتقييم أداء مقاييس مختلفة عبر أزواج ومجال بلغات مختلفة. وأخيرا، نوضح أن الاستخدام الوحيد لبليو يعيق تطوير النماذج المحسنة المؤدية إلى قرارات النشر السيئة. نفرج عن مجموعة من الأحكام الإنسانية الإنسانية على مستوى الجملة 2.3 مليون ل 4380 أنظمة لمزيد من التحليل وتكرار عملنا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

اليوم، تتضمن المؤسسات الإعلامية الأخبار بانتظام مع القراء من خلال تمكينهم من التعليق على المقالات الإخبارية.هذا يخلق الحاجة إلى التعليق الاعتدال وإزالة التعليقات غير المسموح بها - وهي مهمة تستغرق وقتا طويلا في كثير من الأحيان أداءها المشرفين البشري.ف ي هذه الورقة، نقترب من مشكلة اعتدال تعليق الأخبار التلقائي كتصنيف للتعليقات في الفئات المحظورة وغير المحظورة.نبني مجموعة بيانات جديدة من تعليقات باللغة الإنجليزية المشروح، وتجربة نقل متصل بالتعليق، وتقييم العديد من نماذج التعلم الآلي على مجموعات بيانات الأخبار الكرواتية والإستونية.اسم الفريق: SuperAdmin؛التحدي: اكتشاف التعليقات المحظورة؛أدوات / نماذج: Brrosloen Bert، أرقى بيرت، 24sata تعليق DataSet، Ekspress تعليق DataSet.
التقييم الخالي من المرجع لديه القدرة على جعل تقييم الترجمة الآلية أكثر قابلية للتطوير بشكل كبير، مما يتيح لنا المحور بسهولة لغات أو مجالات جديدة.لقد أظهر مؤخرا أن الاحتمالات التي قدمتها نموذج كبير متعدد اللغات يمكن أن تحقق حالة من النتائج الفنية عند استخدامها كتقسيط مجاني مرجعي.نقوم بتجربة تعديلات مختلفة لهذا النموذج، وإظهار ذلك من خلال تحجيمه، يمكننا مطابقة أداء بلو.نقوم بتحليل نقاط الضعف المحتملة المختلفة للنهج، وتجد أنه قوي بشكل مدهش ومن المرجح أن تقدم أداء معقول عبر مجموعة واسعة من المجالات وصفات النظام المختلفة.
اكتسبت الترجمة الآلية المتزامنة الجر مؤخرا، بفضل تحسينات الجودة المهمة ومختام تطبيقات البث.تحتاج أنظمة الترجمة المتزامنة إلى إيجاد مفاضلة بين جودة الترجمة ووقت الاستجابة، وبالتالي تم اقتراح تدابير الكمون المتعددة.ومع ذلك، يتم تقدير تقييمات الكمون للت رجمة الفورية على مستوى الجملة، ولا تأخذ في الاعتبار الطبيعة المتسلسلة لسيناريو البث.في الواقع، هذه تدابير الكمون على مستوى الجملة ليست مناسبة تماما للترجمة المستمرة، مما أدى إلى وجود أرقام غير متماسكة مع سياسة الترجمة المتزامنة للنظام التي يتم تقييمها.يقترح هذا العمل تكيف مستوى دفق من تدابير الكمون الحالية بناء على نهج إعادة تجزئة مطبق على ترجمة الناتج، والتي يتم تقييمها بنجاح على شروط البث لمهمة الإشارة IWSLT.
دفع نجاح ترميزات ثنائية الاتجاه باستخدام نماذج لغة ملثم، مثل بيرت، في العديد من مهام معالجة اللغة الطبيعية، بباحثي المحاولة لإدماج هذه النماذج المدربة مسبقا في أنظمة الترجمة الآلية العصبية (NMT). ومع ذلك، فإن الأساليب المقترحة لإدماج النماذج المدربة مسبقا هي غير تافهة وتركز بشكل أساسي على بيرتف، والتي تفتقر إلى مقارنة التأثير الذي قد يكون له النماذج الأخرى المدربة مسبقا على أداء الترجمة. في هذه الورقة، نوضح ببساطة باستخدام الناتج (Attentralized Advedings) من طراز لغة تدرب مسبقا مخصص ومناسب (Bibert) مناسبة (Bibert) حيث أن إدخال ترميز NMT يحقق أداء ترجمة حديثة من بين الفن. علاوة على ذلك، نقترح أيضا نهج اختيار طبقة مؤشر استوكاستك ومفهوم نموذج الترجمة المزدوج الاتجاه لضمان الاستخدام الكافي للمشروعات السياقية. في حالة عدم استخدام الترجمة الخلفية، تحقق أفضل النماذج لدينا درجات بلو من 30.45 ل ill → DE و 38.61 ل De → EN على DataSet IWSLT'14، و 31.26 ل EN → DE و 34.94 ل De → EN على WMT 14 DataSet، مما يتجاوز جميع الأرقام المنشورة.
تتطلب الترجمة الدقيقة معلومات على مستوى المستندات، والتي يتم تجاهلها بواسطة الترجمة الآلية على مستوى الجملة.لقد أظهر العمل الحديث أن الاتساق على مستوى المستند يمكن تحسينه باستخدام معلومات ما بعد التحرير التلقائي باستخدام معلومات اللغة المستهدفة فقط ( TL).ندرس نموذج قرد موسع يدمج سياق المصدر.يكشف التقييم البشري للطلاقة والكفاة باللغة الإنجليزية - الترجمة الروسية الإنجليزية أن النموذج الذي يتمتع بالوصول إلى سياق المصدر يتفوق بشكل كبير على قرد أحادي الأحادي من حيث الكفاية، وهو تأثير تجاهله إلى حد كبير بواسطة مقاييس التقييم التلقائي إلى حد كبير.تظهر نتائجنا أن نمذجة TL فقط يزيد الطلاقة دون تحسين كفاية، مما يدل على الحاجة إلى تكييف النص المصدر لتحرير ما بعد التحرير التلقائي.كما أنها تسليط الضوء على النقاط العمياء في الأساليب التلقائية للتقييم المستهدف وإظهار الحاجة إلى تقييم بشري لتقييم جودة الترجمة على مستوى المستند بشكل موثوق.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا