نشير إلى أن ممارسات التقييم المشتركة لحل النواة المستندات كانت غير متسقة بشكل غير واقعي في إعداداتها المفترضة، مما أثار نتائج تضخيم.نقترح معالج هذه المشكلة عبر مبادئ منهجية التقييم.أولا، كما هو الحال في المهام الأخرى، ينبغي تقييم النماذج بشأن الأهمية المتوقعة بدلا من الإشراهات الذهبية.القيام بذلك يثير قضية خفية فيما يتعلق بمجموعات Singleton Comeference، والتي نتعلمها عن طريق فصل تقييم التقييم للكشف عن ربط COMELES.ثانيا، نجرب أن النماذج يجب ألا تستغل بنية الموضوع الاصطناعي لمجموعة بيانات البنك المركزي الأوروبي + المعيار، مما أجبر النماذج لمواجهة تحدي الغموض المعجمي، على النحو المقصود من قبل منشئو البيانات.نوضح بالتجريد التأثير الجذراني لمبادئ تقييمنا الأكثر واقعية لدينا على نموذج تنافسي، مما يؤدي إلى درجة أقل 33 F1 مقارنة بتقييم الممارسات اللانوية السابقة.