نقوم بإجراء تقييم بشري في الأوراق التي تقدم العمل على توليد اللغة الطبيعية الإبداعية التي تم نشرها في INLG 2020 و ICCC 2020. أكثر طريقة التقييم البشرية النموذجية هي مسح كبير الحجم، وعادة ما تكون على نطاق 5 نقاط، في حين وجود العديد من الأساليب الأقل شيوعا أخرى.المعلمات الأكثر شيوعا هي معنى، صحة النحوية، الجدة والأهمية والقيمة العاطفية، من بين العديد من الآخرين.تشمل المبادئ التوجيهية الخاصة بنا للتقييم المستقبلي بوضوح هدف النظام التوليدي، وطرح أسئلة كملموسة قدر الإمكان، واختبار إعداد التقييم، باستخدام إعدادات تقييم متعددة متعددة، وإبلاغ عملية التقييم بأكملها والتحيزات المحتملة بوضوح، وأخيرا تحليل نتائج التقييم في النهايةبطريقة أكثر عمقا من إبلاغ الإحصاءات الأكثر نموذجية.