نماذج الترجمة الآلية العصبية حساسة للضوضاء في نصوص الإدخال، مثل كلمات أخطاء إملائية والإنشاءات غير الرسمية.تفشل تقنيات المتانة الحالية عموما عند مواجهة أنواع غير مرئية من الضوضاء وأدائها تتحلل من النصوص النظيفة.في هذه الورقة، نركز على ثلاثة أنواع من الضوضاء الواقعية التي يتم إنشاؤها عادة من قبل البشر وإدخال فكرة السياق البصري لتحسين متانة الترجمة للنصوص الصاخبة.بالإضافة إلى ذلك، نصف نظام تدريب تصحيح خطأ رواية يمكن استخدامه كمهمة مساعدة لزيادة تحسين متانة الترجمة.تظهر تجارب الترجمة الإنجليزية والفرنسية والإنجليزية - الألمانية أن كل من مكونات تصحيح الأخطاء المتعددة الوسائط والخروج تعمل على تحسين متانة النموذج للنصوص الصاخبة، بينما لا تزال تحتفظ بجودة الترجمة على النصوص النظيفة.
Neural Machine Translation models are sensitive to noise in the input texts, such as misspelled words and ungrammatical constructions. Existing robustness techniques generally fail when faced with unseen types of noise and their performance degrades on clean texts. In this paper, we focus on three types of realistic noise that are commonly generated by humans and introduce the idea of visual context to improve translation robustness for noisy texts. In addition, we describe a novel error correction training regime that can be used as an auxiliary task to further improve translation robustness. Experiments on English-French and English-German translation show that both multimodal and error correction components improve model robustness to noisy texts, while still retaining translation quality on clean texts.
المراجع المستخدمة
https://aclanthology.org/
تتضمن النهج الحديثة لإملاء مشكلة تصحيح الأخطاء الإملائي نماذج SEQ2SEQ القائمة على المحولات، والتي تتطلب مجموعات تدريبية كبيرة وتعاني من وقت الاستدلال البطيء؛وتسلسل نماذج وضع التسلسل المستندة إلى ترميز المحولات مثل بيرت، والتي تنطوي على مساحة تسمية ال
يعاني تصحيح الخطأ النحوي (GEC) من عدم وجود بيانات متوازية كافية. اقترحت دراسات حول GEC عدة طرق لتوليد بيانات زائفة، والتي تشمل أزواج من الجمل النحوية والنصيع بشكل مصطنع. حاليا، فإن النهج السائد لتوليد بيانات الزائفة هو الترجمة مرة أخرى (BT). وقد استخ
في السنوات الأخيرة، استخدم عدد من الدراسات نماذج خطية لتنبؤ بالشخصية بناء على النص.في هذه الورقة، نحن نحلل تجريبيا ومقارنة الإشارات المعجمية التي تم التقاطها في هذه النماذج.نحدد الإشارات المعجمية لكل بعدة من مخطط شخصية MBTI بعدة طرق مختلفة، مع الأخذ
على الرغم من أن تصحيح الخطأ النحوي (GEC) قد حقق أداء جيدا على النصوص التي كتبها المتعلمون من اللغة الإنجليزية كلغة ثانية، فإن الأداء على نطاقات كثافة الأخطاء المنخفضة حيث لا يزال من الممكن تحسين النصوص عن طريق مكبرات الصوت الإنجليزية من مستويات مختلف
تناقش هذه الورقة نهجا قائما على التصنيف لتقييم الترجمة الآلي، بدلا من نهج قائم على الانحدار المشترك في مهمة مقاييس WMT.تعمل الترجمة الآلية الحديثة عادة بشكل جيد ولكن في بعض الأحيان تجعل الأخطاء الحرجة بسبب بعض خيارات كلمة خاطئة فقط.يركز نهجنا القائم