من الصعب ترتيب وتقييم أداء أنظمة تصحيح الأخطاء النحوية (GEC)، حيث يمكن إعادة كتابة جملة بطرق صحيحة عديدة. تم استخدام عدد من مقاييس GEC لتقييم أنظمة GEC المقترحة؛ ومع ذلك، يعتمد كل نظام إما مقارنة بنصوص مرجعية واحدة أو أكثر --- في ما يعرف باسم المعيار الذهبي للمقاييس المستندة إلى المرجعة --- أو مجموعة بيانات منفصلة تفوحية لضبط المرجع المرجعية. النظم القائمة المرجعية لها علاقة منخفضة مع الحكم البشري، لا يمكن التقاط جميع الطرق التي يمكن بها تصحيح الجملة، وتتطلب عمل كبيرا لتطوير مجموعة بيانات اختبار. نقترح نظام تقييم GEC المرجعي الذي يرتبط بشدة بالحكم البشري، يحل القضايا المتعلقة باستخدام مرجع، ولا يحتاج إلى مجموعة بيانات مشروح أخرى للضبط. يعتمد النظام المقترح فقط على الأدوات المتاحة بشكل شائع. بالإضافة إلى ذلك، لا تعمل مقاييس مرجعية متاحة حاليا بشكل صحيح عندما يتكرر جزء من الجملة بدلا من المقاييس المستندة إلى المراجع. في نظامنا المقترح، نتطلع إلى معالجة القضايا المتأصلة في المقاييس المرجعية والمقاييس القائمة على المراجع.