نحن نبحث عن مشكلة الاختلال العظيمة في أبحاث معالجة اللغات الطبيعية، وهذا يعني ببساطة أن تعريف المشكلة لا يتماشى مع الطريقة المقترحة والتقييم البشري لا يتماشى مع التعريف ولا الطريقة.ندرس هذه المشكلة الاختلافة من خلال مسح 10 ورقات أخذ عينات عشوائيا منشورة في ACL 2020 التي ينتج عنها التقرير البشري.تظهر نتائجنا أن ورقة واحدة فقط كانت متوافقة تماما من حيث تعريف المشكلة والطريقة والتقييم.قدمت ورقتين فقط تقييم بشري يتماشى مع ما تم تصميمه في الطريقة.وتسليط الضوء على هذه النتائج أن مشكلة الاختلافة العظيمة هي رئيسة كبيرة وتؤثر على صحة وتطوير النتائج التي حصل عليها تقييم بشري.