خلاص ندرة الدراسات الشاملة الحديثة بشأن مقاييس التقييم لتلخيص النص ونقص توافق الآراء بشأن بروتوكولات التقييم لا تزال تمنع التقدم المحرز. نحن نتطلع إلى أوجه القصور الموجودة لأساليب تقييم التلخيص على طول خمسة أبعاد: 1) نعيد تقييم 14 مقيط تقييم تلقائي في أزياء شاملة ومتسقة باستخدام مخرجات نموذج تلخيص العصبي جنبا إلى جنب مع التوضيحات البشرية الخبراء والجمهور؛ 2) نحن معيارون باستمرار 23 نماذج تلخيص حديثة باستخدام مقاييس التقييم التلقائي المذكورة أعلاه؛ 3) نحن نكذب أكبر مجموعة من الملخصات الناتجة عن النماذج المدربة على مجموعة بيانات CNN / DailyMail الأخبار ومشاركتها في شكل موحد؛ 4) نحن نفرا ومشاركة مجموعة أدوات توفر واجهة برمجة تطبيقية قابلة للتوسيع وغير موحدة لتقييم نماذج تلخيص عبر مجموعة واسعة من المقاييس التلقائية؛ 5) نحن نكذب ومشاركة أكبر وأكثرها تنوعا، من حيث الأنواع النموذجية، وجمع الأحكام البشرية من الملخصات التي تم إنشاؤها النموذجية على مجموعة بيانات CNN / Daily Mail المشروحة من قبل كلا من قضاة الخبراء والعاملين بمصدر الحشد. نأمل أن يساعد هذا العمل في تعزيز بروتوكول تقييم أكثر اكتمالا لتلخيص النص وكذلك البحث المسبق في تطوير مقاييس التقييم التي ترتبط بأحكام الإنسان بشكل أفضل.