تعد التصنيفات البشرية واحدة من أكثر الطرق سائدة لتقييم أداء خوارزميات NLP (معالجة اللغة الطبيعية). وبالمثل، من الشائع قياس جودة الجمل الناتجة عن نموذج توليد اللغة الطبيعي باستخدام الدراسات البشرية. في هذه الورقة، نقول لاستكشاف استخدام التقييمات الذاتية ضمن عملية نماذج توليد اللغة التدريب في إعداد تعليمي متعدد المهام. كدراسة حالة، نستخدم كوربا حوارا مؤلفا من الحشود لضبط ستة نماذج توليد لغة مختلفة. يتضمن اثنان من هذه النماذج تعلم المهام المتعددة واستخدام التصنيفات الذاتية للخطوط كجزء من هدف التعلم الصريح. تكشف التقييم البشري لخطوط الحوار التي تم إنشاؤها أن الكلام الناتجة عن النماذج متعددة المهام تم تصنيفها بشكل ذاتي باعتبارها الأكثر نموذجية، وتحريك المحادثة للأمام، وأقل هجومية. استنادا إلى النتائج الأولى الواعدة، نقوم بمناقشة اتجاهات البحث في المستقبل لدمج التقييمات الإنسانية الذاتية في التدريب النموذجي اللغوي وبالتالي الحفاظ على المستخدم البشري في الحلقة أثناء عملية التطوير.