نفذنا نظام ترجمة آلات عصبية يستخدم علامات التسلسل التلقائي لتحسين جودة الترجمة.بدلا من التشغيل في أزواج الجملة غير المركبة، يستخدم نظامنا أنظمة العلامات المدربة مسبقا لإضافة ميزات لغوية إلى المصدر الجمل المستهدفة.تتعلم بنية العصبية المقترحة لدينا تضمين مشترك للرموز والعلامات في التشفير، والرمز المتزامن والتنبؤ بالعلامة في وحدة فك التشفير.بالمقارنة مع خط الأساس مع التدريب غير المرفقي، زادت هذه الهيكل هذه النتيجة بلو للألمانية إلى إخراج الترجمة الفرعية للفيلم الإنجليزي بمقدار 1.61 نقطة باستخدام علامات الكيان المسماة؛ومع ذلك، انخفضت النتيجة بلو بمقدار 0.38 نقطة باستخدام علامات جزء من الكلام.وهذا يدل على أن مخرجات العلامات على مستوى الرمز المميز من أنظمة العلامات خارج الرف يمكن أن تحسن إخراج أنظمة الترجمة العصبية باستخدام التضمين المشترك ومجموعات فك التشفير المتزامنة.
We implemented a neural machine translation system that uses automatic sequence tagging to improve the quality of translation. Instead of operating on unannotated sentence pairs, our system uses pre-trained tagging systems to add linguistic features to source and target sentences. Our proposed neural architecture learns a combined embedding of tokens and tags in the encoder, and simultaneous token and tag prediction in the decoder. Compared to a baseline with unannotated training, this architecture increased the BLEU score of German to English film subtitle translation outputs by 1.61 points using named entity tags; however, the BLEU score decreased by 0.38 points using part-of-speech tags. This demonstrates that certain token-level tag outputs from off-the-shelf tagging systems can improve the output of neural translation systems using our combined embedding and simultaneous decoding extensions.
References used
https://aclanthology.org/
In most of neural machine translation distillation or stealing scenarios, the highest-scoring hypothesis of the target model (teacher) is used to train a new model (student). If reference translations are also available, then better hypotheses (with
We describe Machine-Aided Script Curator (MASC), a system for human-machine collaborative script authoring. Scripts produced with MASC include (1) English descriptions of sub-events that comprise a larger, complex event; (2) event types for each of t
This paper describes the Global Tone Communication Co., Ltd.'s submission of the WMT21 shared news translation task. We participate in six directions: English to/from Hausa, Hindi to/from Bengali and Zulu to/from Xhosa. Our submitted systems are unco
Successful Machine Translation (MT) deployment requires understanding not only the intrinsic qualities of MT output, such as fluency and adequacy, but also user perceptions. Users who do not understand the source language respond to MT output based o
Multilingual neural machine translation (MNMT) learns to translate multiple language pairs with a single model, potentially improving both the accuracy and the memory-efficiency of deployed models. However, the heavy data imbalance between languages