ترغب بنشر مسار تعليمي؟ اضغط هنا

تنتج هذه التقارير الورقية من دراسة الاستنساخ التي نكررت فيها التقييم البشري لنظام توليد تقرير كرة القدم الهولندي باللغة الهولندية (Van der Lee et al.، 2017). تم تنفيذ العمل كجزء من المهمة المشتركة لإعادة التوبيخ بشأن استنساخ التقييمات البشرية في NLG، في المسار الصحيح (ورقة 1). نهدف إلى تكرار الدراسة الأصلية بالضبط، مع الفرق الرئيسي الذي تم استخدام مجموعة مختلفة من المقيمين. نحن تصف تصميم الدراسة، وتقديم النتائج من دراسة النسخ الأصلية، ثم قارن وتحليل الاختلافات بين مجموعتين من النتائج. بالنسبة لنتائج المعتديين الأولين من الطلاقة والوضوح، نجد أنه في كلتا الدراسات، تم تصنيف النظام بشكل أكبر من أجل الوضوح أكثر من الطلاقة، وكان الوضوح انحراف معياري أعلى. كانت تصنيفات الوضوح والطلاقة أعلى، وانحرافاتها المعيارية أقل، في دراسة الاستنساخ أكثر من الدراسة الأصلية من الهوامش الكبيرة. كان الوضوح درجة أعلى من الاستيلاء من الطلاقة، كما تقاس معامل الاختلاف. البيانات والرمز متاحة للجمهور.
تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة الب يانات التجميع والأنظمة "(Qader et al.، 2018) وتهدف إلى النسخ المتماثل، عن كثب إلى الأصل ممكن، التقييم البشري والمقارنة اللاحقة بين الأحكام الإنسانية ومقاييس التقييم التلقائي. هنا، نقوم أولا بتحديد مهمة جيل النص في ورقة قادر وآخرون. (2018). ثم، نحن نوثق كيف اقتربنا نسخينا من التقييم البشري للورقة. نناقش أيضا الصعوبات التي واجهناها والتي كانت المعلومات مفقودة. النسخ المتماثل لدينا له علاقة متوسطة إلى قوية (0.66 سبيرمان بشكل عام) مع النتائج الأصلية للقادير وآخرون. (2018)، ولكن بسبب المعلومات المفقودة حول مدى قادير وآخرون. (2018) مقارنة الأحكام الإنسانية بدرجات متري، امتنعنا عن إعادة إنتاج هذه المقارنة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا