لا يزال تقييم التلخيص مشكلة بحث مفتوحة: من المعروف أن المقاييس الحالية مثل الحمر محدودة وربطها بشكل سيء بأحكام بشرية.لتخفيف هذه المسألة، اقترحت العمل الحديث مقاييس التقييم التي تعتمد على الأسئلة في الإجابة على النماذج لتقييم ما إذا كان الملخص يحتوي على جميع المعلومات ذات الصلة في وثيقتها المصدر.على الرغم من الواعدة، إلا أن النهج المقترحة فشلت حتى الآن في الارتباط بشكل أفضل من الحمر بأحكام بشرية.في هذه الورقة، نقدم النهج السابقة واقتراح إطار موحد، يدعى Questeval.على عكس مقاييس ثابتة مثل Rouge أو Bertscore، لا يتطلب Questeval أي مرجع حقيقي في الحقيقة.ومع ذلك، فإن Questeval يحسن بشكل كبير من الارتباط بالأحكام البشرية على أربع أبعاد تقييم (الاتساق والتماسك والطلاقة والأهمية)، كما هو مبين في تجارب واسعة النطاق.