ما مدى فائدة استراتيجيات تجزئة الكلمات الفرعية لترجمة التشكل غير الملائم؟


الملخص بالعربية

أصبح تجزئة الكلمات الفرعية التي يحركها البيانات هي الاستراتيجية الافتراضية للترجمة الآلية المفتوحة ومهام NLP الأخرى، ولكنها قد لا تكون عامة بما فيه الكفاية للتعلم الأمثل للمورفولوجيا غير الملعوسة.نقوم بتصميم مجموعة اختبار لتقييم استراتيجيات التجزئة على أنواع مختلفة من الظواهر المورفولوجية في بيئة ذات نصف اصطناعية محددة.في تجاربنا، قارنا نماذج الترجمة الآلية التي تم تدريبها على مستوى الكلمة الفرعية ومستوى الشخصيات ترجمة هذه الظواهر المورفولوجية.نجد أن التعلم لتحليل وإنشاء تمثيلات سطحية معقد مورفولوجية لا تزال تحديا، خاصة بالنسبة للظواهر المورفولوجية غير الملحة مثل الإدراج أو الحروف الحرارية وانسحاب الكلمة النادرة.استنادا إلى نتائجنا، نوصي باختبار استراتيجيات تمثيل نصية جديدة على مجموعة من اللغات المتنوعة من الناحية النموذجية لتقليل خطر اعتماد استراتيجية عيوب عن غير قصد بعض اللغات.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث