نحن نستخدم مجموعة اختبار شبه آلية من أجل توفير تقييم لغوي محمول من أجل أنظمة الترجمة الآلية الحديثة. يشمل التقييم 18 الألمانية إلى الإنجليزية و 18 الإنجليزية إلى الألمانية، قدمت إلى مهمة مشتركة للترجمة بمؤتمر 2021 حول الترجمة الآلية. يضيف تقديمنا إلى إعدادات السنوات السابقة عن طريق إنشاء وتطبيق جناح اختبار واسع النطاق للغة الإنجليزية إلى الألمانية كزوج لغة جديدة. يسمح التقييم الراسخ في اكتشاف اختلافات كبيرة بين الأنظمة التي لا يمكن تمييزها من خلال التقييم المباشر لحملة التقييم البشرية. نجد أن معظم الأنظمة تحقق عقوبة جيدة في غالبية الظواهر اللغوية ولكن هناك عدد قليل من الظواهر مع دقة منخفضة، مثل التعابير، والمطبقة مشروط والمسندات الألمانية الناتجة. نظمتين تتمتعان بدقة اختبار أفضل بكثير في المتوسط في المتوسط الكلي في كل اتجاه لغة، عبر الإنترنت-W و Facebook-AI للألمانية إلى الإنجليزية والمرافقين وبرنامج Volctrans وعلى الإنترنت-W للإنجليزية إلى الألمانية. تظهر الأنظمة تحسنا مطردا مقارنة بالسنوات السابقة.