ترغب بنشر مسار تعليمي؟ اضغط هنا

هل هذا خطأ الترجمة أمر بالغ الأهمية؟: تقييم الترجمة من الآلات والآلية القائمة على التصنيف يركز على الأخطاء الحرجة

Is This Translation Error Critical?: Classification-Based Human and Automatic Machine Translation Evaluation Focusing on Critical Errors

327   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تناقش هذه الورقة نهجا قائما على التصنيف لتقييم الترجمة الآلي، بدلا من نهج قائم على الانحدار المشترك في مهمة مقاييس WMT.تعمل الترجمة الآلية الحديثة عادة بشكل جيد ولكن في بعض الأحيان تجعل الأخطاء الحرجة بسبب بعض خيارات كلمة خاطئة فقط.يركز نهجنا القائم على التصنيف على هذه الأخطاء باستخدام العديد من ملصقات نوع الخطأ، لتقييم ترجمة الآلات العملي في عصر الترجمة الآلية العصبية.لقد بذلنا شرحا إضافيا على مجموعات بيانات المقاييس 2015-2017 مع ملصقات الطلاقة والكفاية لتمييز أنواع مختلفة من أخطاء الترجمة من نقاط العرض النحوية والدلسة.نقدم معايير التقييم البشرية لدينا لتطوير Corpus وتجارب التقييم التلقائي باستخدام Corpus.سيتم إتاحة كوربوس التقييم البشري علنا عند النشر.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تبين أن تقدير الجودة (QE) للترجمة الآلية تصل إلى دقة عالية نسبيا في التنبؤ بعشرات على مستوى الجملة، والاعتماد على المدينات السياقية المحددة مسبقا وعشرات الجودة المنتجة للإنسان. ومع ذلك، فإن الافتقار إلى التفسيرات إلى جانب القرارات التي اتخذتها النماذ ج العصبية نهاية إلى نهاية تجعل النتائج يصعب تفسيرها. علاوة على ذلك، فإن مجموعات البيانات المشروحة على مستوى الكلمات نادرة بسبب الجهد الباهظ المطلوب لإجراء هذه المهمة، في حين أنهم قد يوفرون إشارات قابلة للتفسير بالإضافة إلى مخرجات QE على مستوى الجملة. في هذه الورقة، نقترح هندسة QE الجديدة التي تعالج كل من ندرة البيانات على مستوى الكلمة والقيود التفسيرية للنهج الأخيرة. يتم احترام مكونات مستوى الجملة ومستوى الكلمات بشكل مشترك من خلال آلية اهتمام بناء على البيانات الاصطناعية ومجموعة من مقاييس MT المضمنة في مساحة مشتركة. يتم تقييم نهجنا على المهمة المشتركة ESPR4NLP 2021 وتوصل عمليات التقديمات لدينا إلى المركز الأول في جميع أزواج اللغات. تظهر استخراج أوزان الاهتمام المتراكي إلى المدخلات أن مقاييس مختلفة تركز على أجزاء مختلفة من المصدر والنص المستهدف، مما يوفر منورات تدريبية قوية في عملية صنع القرار لنموذج QE.
شركات وسائل التواصل الاجتماعي وكذلك سلطات الرقابة تجعل الاستخدام المكثف للأدوات الذكاء الاصطناعي (AI) لمراقبة منشورات خطاب الكراهية أو الاحتفالات بالعنف أو الألفاظ النابية. نظرا لأن برنامج AI يتطلب كميات كبيرة من البيانات لتدريب أجهزة الكمبيوتر، يتم تنفيذ الترجمة التلقائية للمحتوى عبر الإنترنت عادة للتعويض عن ندرة النص في بعض اللغات. ومع ذلك، فإن أخطاء الترجمة الآلية (MT) هي حدوث منتظم عند ترجمة المحتوى الذي تم إنشاؤه الموجه نحو المستخدم (UGC)، خاصة عند مشاركة لغة الموارد المنخفضة. في مثل هذه السيناريوهات، تعتمد كفاية العملية برمتها على افتراض أن الترجمة يمكن تقييمها بشكل صحيح. في هذه الورقة، نقوم بتقييم قدرة مقاييس الجودة التلقائية على اكتشاف أخطاء ترجمة الآلات الحرجة التي يمكن أن تسبب سوء فهم خطير في رسالة التأثير. نقارن أداء ثلاثة مقاييس قانوني على الترجمات التي لا معنى لها بالمقارنة مع الترجمات ذات مغزى مع وجود خطأ حاسم يشوه المعنويات الإجمالية للنص المصدر. نوضح الحاجة إلى ضبط القيود التلقائي لجعلها أكثر قوة في اكتشاف أخطاء المعنويات الحرجة.
حاليا، تتلقى الترجمة متعددة اللغات الآلية أكثر اهتماما أكثر وأكثر لأنها تجلب أداء أفضل لغات الموارد المنخفضة (LRLS) وتوفر مساحة أكبر. ومع ذلك، فإن نماذج الترجمة متعددة اللغات الحالية تواجه تحديا شديدا: عدم التوازن. نتيجة لذلك، فإن أداء الترجمة من لغا ت مختلفة في نماذج الترجمة متعددة اللغات مختلفة تماما. نقول أن مشكلة الاختلال هذه تنبع من كفاءات التعليم المختلفة لغات مختلفة. لذلك، نحن نركز على تحقيق التوازن بين الكفاءات التعليمية لغات مختلفة واقتراح مناهج التعلم القائم على الكفاءة للترجمة الآلية متعددة اللغات، والتي تسمى CCL-M. على وجه التحديد، نقوم أولا بتحديد كفاءتين للمساعدة في جدولة لغات الموارد العالية (HRLS) ولغات المورد المنخفضة: 1) الكفاءة التي تم تقييمها ذاتيا، وتقييم مدى تعلم اللغة نفسها؛ 2) الكفاءة التي تم تقييمها HRLS، وتقييم ما إذا كانت LRL جاهزة للتعلم وفقا لخلاف HRLS الذي تم تقييمه الذاتي. استنادا إلى الكفاءات المذكورة أعلاه، نستخدم خوارزمية CCL-M المقترحة إضافة لغات جديدة تدريجيا في التدريب المحدد بطريقة تعلم المناهج الدراسية. علاوة على ذلك، نقترح استراتيجية أخذان رصاصة ديناميكية متوازنة من الكفاءة النووية لتحسين عينات التدريب بشكل أفضل في التدريب متعدد اللغات. تظهر النتائج التجريبية أن نهجنا حقق مكاسب أداء ثابتة وهامة مقارنة بالنهج السابق للدولة السابقة بشأن مجموعة بيانات محادثات تيد.
تبين مقارنة تسلسلات الصيغة في الآلات البشرية والآلة العصبية لمقالات الصحف عالية الجودة أن ترجمات الآلات العصبية تحتوي على تسلسل أقل تردد أقل، ولكن تسلسل صيغة صيغة صينية مرتبطة بشدة (FSS)، والمزيد من FSS عالية التردد.يمكن أن ترتبط هذه الملاحظات بالاخت لافات بين المتعلمين من اللغات الثانية من المستويات المختلفة وبين النصوص المترجمة وغير الترجمة.تشير المقارنة بين أنظمة الترجمة الآلية العصبية إلى أن بعض الأنظمة تنتج المزيد من الأقمار الصناعية لكلا النوعين من الأنظمة الأخرى.
يركز البحث الحالي على تقدير الجودة لجهاز الترجمة الآلية على جودة الجملة للترجمات.باستخدام أساليب الشرح، يمكننا استخدام تقديرات الجودة هذه لتحديد خطأ مستوى Word على مستوى Word.في هذا العمل، نقارن تقنيات الشرح المختلفة والتحقيق في الأساليب القائمة على التدرج والقائم على الاضطرابات عن طريق قياس أدائها وجهود حسابية مطلوبة.في جميع تجاربنا، لاحظنا أن استخدام درجات الكلمة المطلقة يعزز أداء المشرفين المستند إلى التدرج بشكل كبير.علاوة على ذلك، نجمع بين طرق الشرح لفرق استغلال نقاط القوة في الأشرار الفردية للحصول على تفسيرات أفضل.نقترح استخدام الأساليب القائمة على التدرج المطلق.هذه العمل بشكل جيد

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا