تنتج هذه التقارير الورقية من دراسة الاستنساخ التي نكررت فيها التقييم البشري لنظام توليد تقرير كرة القدم الهولندي باللغة الهولندية (Van der Lee et al.، 2017). تم تنفيذ العمل كجزء من المهمة المشتركة لإعادة التوبيخ بشأن استنساخ التقييمات البشرية في NLG، في المسار الصحيح (ورقة 1). نهدف إلى تكرار الدراسة الأصلية بالضبط، مع الفرق الرئيسي الذي تم استخدام مجموعة مختلفة من المقيمين. نحن تصف تصميم الدراسة، وتقديم النتائج من دراسة النسخ الأصلية، ثم قارن وتحليل الاختلافات بين مجموعتين من النتائج. بالنسبة لنتائج المعتديين الأولين من الطلاقة والوضوح، نجد أنه في كلتا الدراسات، تم تصنيف النظام بشكل أكبر من أجل الوضوح أكثر من الطلاقة، وكان الوضوح انحراف معياري أعلى. كانت تصنيفات الوضوح والطلاقة أعلى، وانحرافاتها المعيارية أقل، في دراسة الاستنساخ أكثر من الدراسة الأصلية من الهوامش الكبيرة. كان الوضوح درجة أعلى من الاستيلاء من الطلاقة، كما تقاس معامل الاختلاف. البيانات والرمز متاحة للجمهور.