مجردة المقاييس المستخدمة بشكل أساسي لتقييم نماذج توليد اللغة الطبيعية (NLG)، مثل Bleu أو Meteor، تفشل في تقديم معلومات حول تأثير العوامل اللغوية الأداء. التركيز على تحقيق السطح (SR)، ومهمة تحويل شجرة تبعية غير مرتبة في جملة رائعة، نقترح إطارا لتحليل الأخطاء الذي يسمح بتحديد ميزات الإدخال تؤثر على نتائج النماذج. يتكون هذا الإطار من عنصرين رئيسيين: (1) تحليلات الارتباط بين مجموعة واسعة من المقاييس النحوية ومقاييس الأداء القياسية و (2) مجموعة من التقنيات لتحديد البنيات النحوية تلقائيا والتي غالبا ما تحدث مع درجات أداء منخفضة. نوضح مزايا إطار الإطار الخاص بنا عن طريق إجراء تحليل الأخطاء في نتائج 174 يدير النظام المقدم إلى المهام المشتركة ل SR متعددة اللغات؛ نظهر أن دقة حافة التبعية ترتبط مع المقاييس التلقائية وبالتالي توفير أساس أكثر قابلية للتفسير للتقييم؛ ونقترح الطرق التي يمكن بها استخدام إطار عملنا لتحسين النماذج والبيانات. يتوفر الإطار في شكل مجموعة أدوات يمكن استخدامها على حد سواء من خلال منظمي الحملة لتوفير ملاحظات مفصلة، من التفسير اللغوي على حالة الفن في مجال الإرسال المتعدد اللغات، والباحثين الفرديين لتحسين النماذج ومجموعات البيانات