نقدم نتائج المهمة الأولى على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع.تتكون المهمة على التقييم المتعدد إلى العديد من النماذج الفردية عبر مجموعة متنوعة من اللغات المصدر والمستهدفة.هذا العام، تتألف المهمة على ثلاثة إعدادات مختلفة: (1) المهمة الصغيرة 1 (لغات أوروبا الوسطى / الجنوبية الشرقية)، (2) المهمة الصغيرة 2 (لغات جنوب شرق آسيا)، و (3) مهمة كاملة (كل 101 × 100 زوج أزواج).استخدمت جميع المهام DataSet Flores-101 كمعيار التقييم.لضمان طول العمر من مجموعة البيانات، لم يتم إصدار مجموعات الاختبار علنا وتم تقييم النماذج في بيئة خاضعة للرقابة على Dynabench.كان هناك ما مجموعه 10 فرق مشاركة للمهام، بما مجموعه 151 من العروض النموذجية المتوسطة و 13 نماذج نهائية.تظهر نتائج هذا العام تحسنا كبيرا على خطوط الأساس المعروفة مع +17.8 بلو ل Task-Task2، +10.6 للمهمة الكاملة و +3.6 للمهمة الصغيرة 1.