معظم الوقت، عند التعامل مع مهمة معينة لمعالجة اللغة الطبيعية، تتم مقارنة الأنظمة على أساس الإحصاءات العالمية مثل الاستدعاء والدقة ودرجة F1، وما إلى ذلك، بينما توفر هذه الدرجات فكرة عامة عن سلوك هذه الأنظمة، إنهم يتجاهلون جزءا رئيسيا من المعلومات التي يمكن أن تكون مفيدة لتقييم التقدم المحرز والتحديات المتبقية المتميزة: الصعوبة النسبية في حالات الاختبار. لمعالجة هذا القصور، نقدم فكرة التقييم التفاضلي الذي يحدد فعليا التقسيم العملي من الحالات في صناديق أكثر صعوبة تدريجيا من خلال الاستفادة من التنبؤات التي قدمتها مجموعة من الأنظمة. تمكننا مقارنة الأنظمة على طول صناديق الصعوبة هذه أن تنتجنا تحليلا مدققا لأسعارها النسبية، والتي نوضحها على حالتي الاستخدام: مقارنة بين النظم المشاركة في مهمة تصنيف النص متعدد الملصقات (CLF EHENGE 2018 ICD-10 ICD-10 )، ومقارنة النماذج العصبية المدربة للكشف عن الكيانات الطبية الحيوية (مجموعة بيانات علاقات الأمراض الكيميائية الثنائية الطبيوم الكيميائية).