تقدم هذه الورقة التقديمات الكلية الإمبراطورية لندن إلى المهمة المشتركة لتقدير الجودة WMT21 (QE) 3: اكتشاف الخطأ الحرج.ينشئ نهجنا على تمثيلات متدرب مسبقا عبر اللغات في نموذج تصنيف التسلسل.ونحن كذلك تحسين المصنف الأساسي من خلال (ط) إضافة عينات مرجحة للتعامل مع البيانات غير المتوازنة و (2) إدخال هندسة ميزة، حيث يتم استخراج الميزات المتعلقة بالسمية، المسماة الكيانات والمعنويات، والتي من المحتمل أن تكون مؤشرا على الأخطاء الحرجة، باستخدامالأدوات الموجودة ومتكاملة للنموذج بطرق مختلفة.نحن ندرب النماذج مع نوع واحد من الميزات في وقت واحد وفرق تلك النماذج التي تتحسن عبر المصنف الأساسي على مجموعة تطوير (dev).إن عروضنا الرسمية تحقق نتائج تنافسية للغاية، ترتيب المرتبة الثانية لثلاثة من أزواج أربعة لغات.
This paper presents Imperial College London's submissions to the WMT21 Quality Estimation (QE) Shared Task 3: Critical Error Detection. Our approach builds on cross-lingual pre-trained representations in a sequence classification model. We further improve the base classifier by (i) adding a weighted sampler to deal with unbalanced data and (ii) introducing feature engineering, where features related to toxicity, named-entities and sentiment, which are potentially indicative of critical errors, are extracted using existing tools and integrated to the model in different ways. We train models with one type of feature at a time and ensemble those models that improve over the base classifier on the development (dev) set. Our official submissions achieve very competitive results, ranking second for three out of four language pairs.
References used
https://aclanthology.org/
We submitted two uni-directional models, one for English→Icelandic direction and other for Icelandic→English direction. Our news translation system is based on the transformer-big architecture, it makes use of corpora filtering, back-translation and
This paper presents the NICT Kyoto submission for the WMT'21 Quality Estimation (QE) Critical Error Detection shared task (Task 3). Our approach relies mainly on QE model pretraining for which we used 11 language pairs, three sentence-level and three
This paper describes Papago submission to the WMT 2021 Quality Estimation Task 1: Sentence-level Direct Assessment. Our multilingual Quality Estimation system explores the combination of Pretrained Language Models and Multi-task Learning architecture
This paper describes our work in the WMT 2021 Machine Translation using Terminologies Shared Task. We participate in the shared translation terminologies task in English to Chinese language pair. To satisfy terminology constraints on translation, we
This paper presents the JHU-Microsoft joint submission for WMT 2021 quality estimation shared task. We only participate in Task 2 (post-editing effort estimation) of the shared task, focusing on the target-side word-level quality estimation. The tech