وقد حققت نماذج اللغة المدربة على نطاق واسع (LMS) أداء مستوى بشري على اتساع مهام فهم اللغة.ومع ذلك، فإن التقييمات فقط بناء على أداء المهام النهائي ألقت الضوء قليلا على الآلات القدرة الحقيقية في فهم اللغة والتفكير.في هذه الورقة، نسلط الضوء على أهمية تقييم عملية التفكير الأساسية بالإضافة إلى الأداء النهائي.نحو هذا الهدف، نقدم المنطق المتدرج في الفيزياء البديهية (الرحلة)، وهناك مجموعة بيانات المنطق الرواية المنطقية مع شروح كثيفة تمكن التقييم متعدد المتدرج لعملية التفكير الآلات.تظهر نتائج التجريبية الخاصة بنا أنه في حين أن LMS كبيرة يمكن أن تحقق أداء متطورا للغاية، إلا أنهم يكافحون لدعم تنبؤاتهم بأدلة داعمة صالحة.ستحفز مجموعة بيانات الرحلة ونتائج أساسية لدينا لتحفيز تقييم يمكن التحقق منه من المنطق المنطقي وتسهيل البحوث المستقبلية نحو تطوير نماذج أفضل لغات وتفكير اللغة.