تم تقييم الترجمة الآلية (MT) حاليا بأحد طريقتين: بطريقة أحادية الأجل، بالمقارنة مع إخراج النظام إلى ترجمات مرجعية بشرية واحدة أو أكثر، أو في أزياء تقاطعات مدربة، من خلال بناء نموذج إشرافي للتنبؤ بعشرات الجودة من البيانات ذات العلامات على الإنسان. في هذه الورقة، نقترح بديل أكثر فعالية من حيث التكلفة، ومع ذلك أدائين جيدا من حيث التكلفة، والاعتماد على كلمة متعددة المحاكمات متعددة اللغات وتمثيلات الجملة، ونحن نقارن مباشرة المصدر مع الجملة ترجمت الآلة، وبالتالي تجنب الحاجة إلى كل من الترجمات المرجعية والمسمى بيانات التدريب. يعتمد المقياس على النهج القائم على أحدث الولاية - وهي مسافة BertScore و Word Mover - من خلال دمج فكرة التشابه الدلالي الحكم. من خلال القيام بذلك، فإنه يحقق ارتباطا أفضل مع درجات بشرية على مجموعات بيانات مختلفة. نظظ أنه يتفوق على هذه المقاييس وغيرها من المقاييس الأخرى في إعداد أحادي الأحادي القياسي (الترجمة المرجعية MT)، كما هو الحال في إعداد ثنائي اللغة المصدر - MT، حيث تنفذ على قدم المساواة مع نهج المربع الزجاجي لتقدير الجودة التي تعتمد على نموذج MT معلومة.
Machine translation (MT) is currently evaluated in one of two ways: in a monolingual fashion, by comparison with the system output to one or more human reference translations, or in a trained crosslingual fashion, by building a supervised model to predict quality scores from human-labeled data. In this paper, we propose a more cost-effective, yet well performing unsupervised alternative SentSim: relying on strong pretrained multilingual word and sentence representations, we directly compare the source with the machine translated sentence, thus avoiding the need for both reference translations and labelled training data. The metric builds on state-of-the-art embedding-based approaches -- namely BERTScore and Word Mover's Distance -- by incorporating a notion of sentence semantic similarity. By doing so, it achieves better correlation with human scores on different datasets. We show that it outperforms these and other metrics in the standard monolingual setting (MT-reference translation), a well as in the source-MT bilingual setting, where it performs on par with glass-box approaches to quality estimation that rely on MT model information.
References used
https://aclanthology.org/
Translation quality can be improved by global information from the required target sentence because the decoder can understand both past and future information. However, the model needs additional cost to produce and consider such global information.
Simultaneous machine translation has recently gained traction thanks to significant quality improvements and the advent of streaming applications. Simultaneous translation systems need to find a trade-off between translation quality and response time
Reference-free evaluation has the potential to make machine translation evaluation substantially more scalable, allowing us to pivot easily to new languages or domains. It has been recently shown that the probabilities given by a large, multilingual
Neural machine translation (NMT) models are data-driven and require large-scale training corpus. In practical applications, NMT models are usually trained on a general domain corpus and then fine-tuned by continuing training on the in-domain corpus.
Recent research questions the importance of the dot-product self-attention in Transformer models and shows that most attention heads learn simple positional patterns. In this paper, we push further in this research line and propose a novel substitute