تحسين الترجمة آلة حواس الكلمة النادرة وغير المرئية


الملخص بالعربية

تحسنت أداء أنظمة NMT بشكل كبير في السنوات القليلة الماضية ولكن ترجمة الكلمات متعددة الإحساس لا تزال تشكل تحديا. نظرا لأن حواس الكلمات ليست ممثلة بشكل موحد في الشركة الموازية المستخدمة للتدريب، فهناك استخدام مفرط من المعنى الأكثر شيوعا في إخراج MT. في هذا العمل، نقترح CMBT (الترجمة ذات الاحتياط بالسياقة)، ​​وهو نهج لتحسين ترجمة كلمة متعددة الشعور بالاستفادة من تمثيل الكلمات السياقية المتبادلة المدربة مسبقا (CCWRS). بسبب حساسية السياق الخاصة بهم وبياناتها السابقة للتدريب الكبيرة، يمكن ل CCWRS الوصول بسهولة إلى حواس الكلمات المفقودة أو نادرة جدا في ولاية فورانيا المستخدمة لتدريب MT. على وجه التحديد، تطبق CMBT تحريض معجم ثنائي اللغة على CCWRS الجمل المستهدفة ذات المحور المنطقي من مجموعة بيانات أحادية الأحادية، ثم يترجم هذه الجمل لإنشاء كورب موازية زائفة كبيانات تدريبية إضافية لنظام MT. نحن نختبر جودة الترجمة من الكلمات الغامضة على جناح اختبار المخاط المخاطي، والتي تم بناؤها لاختبار فعالية حذف كلمة معنى الكلمة لأنظمة MT. نظهر أن نظامنا يتحسن على ترجمة حواس كلمة متعددة الترددات الصعبة والثانية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث