في هذه الورقة، نقدم متري جديد يعتمد على تضمين التعاون على نماذج التصنيف القابلة للتدريب لتقييم الدقة الدلالية لمولدات البيانات النصية العصبية. هذا المتريات مناسب بشكل خاص لتقييم أداء مولد النص بشكل خاص بشكل خاص وتقييم فعليا عندما يمكن ربط الجداول بمراجع متعددة وقيم الجدول تحتوي على كلمات نصية نصية. نقدم أولا كيف يمكن للمرء تنفيذ ومزيد من التخصص المتخصص من خلال تدريب نماذج التصنيف الأساسية في مجموعة بيانات قانونية إلى نصية. نظهر كيف قد يوفر ذلك تقييما أكثر قوة من مخططات التقييم الأخرى في الإعدادات الصعبة باستخدام مجموعة بيانات تضم أي رسوم بين قيم الجدول ومراجعها. أخيرا، نقوم بتقييم قدرات تعميمها على مجموعة بيانات معروفة، و WEBNLG، بمقارنتها بالتقييم البشري ومقياس تم إدخاله مؤخرا بناء على الاستدلال اللغوي الطبيعي. بعد ذلك، توضح كيف تميز بشكل طبيعي، سواء من الناحية الكمية والنوعية والإغفالات والهلوسة.