من المعروف أن ميزات كلمة مثل المعلومات اللغوية التي تشير إلى رموز المصدر التي تشير إلى رموز المصدر، لتحسين نتائج أنظمة الترجمة الآلية العصبية في بعض الإعدادات، وعادة ما تكون في البنى المتكررة. تقترح هذه الدراسة تعزيز هندسة الترجمة الآلية الحالية للدولة القصيرة، والمحول، بحيث يسمح بإدخال المعرفة الخارجية. على وجه الخصوص، يستخدم التعديل المقترح لدينا، المحولات العامل، العوامل اللغوية التي تدرس معرفة إضافية في نظام الترجمة الآلي. بصرف النظر عن استخدام أنواع مختلفة من الميزات، ندرس تأثير التكوينات المعمارية المختلفة. على وجه التحديد، نقوم بتحليل أداء الجمع بين الكلمات والميزات على مستوى التضمين أو على مستوى التشفير، ونحن نقوم بتجربة استراتيجيتين مزيج مختلفين. مع تكوين أفضل تم العثور عليه، نعرض تحسينات من 0.8 بلو عبر محول الأساس في مهمة IWSLT الألمانية إلى الإنجليزية. علاوة على ذلك، نقوم بتجربة معيار فلوريس الإنجليزي إلى النيبالي الأكثر تحديا، والذي يشمل كل من اللغات المنخفضة الموارد والبعيدة للغاية، والحصول على تحسين 1.2 بلو
Introducing factors, that is to say, word features such as linguistic information referring to the source tokens, is known to improve the results of neural machine translation systems in certain settings, typically in recurrent architectures. This study proposes enhancing the current state-of-the-art neural machine translation architecture, the Transformer, so that it allows to introduce external knowledge. In particular, our proposed modification, the Factored Transformer, uses linguistic factors that insert additional knowledge into the machine translation system. Apart from using different kinds of features, we study the effect of different architectural configurations. Specifically, we analyze the performance of combining words and features at the embedding level or at the encoder level, and we experiment with two different combination strategies. With the best-found configuration, we show improvements of 0.8 BLEU over the baseline Transformer in the IWSLT German-to-English task. Moreover, we experiment with the more challenging FLoRes English-to-Nepali benchmark, which includes both extremely low-resourced and very distant languages, and obtain an improvement of 1.2 BLEU
المراجع المستخدمة
https://aclanthology.org/