تنتج هذه التقارير الورقية من دراسة الاستنساخ التي نكررت فيها التقييم البشري لنظام توليد تقرير كرة القدم الهولندي باللغة الهولندية (Van der Lee et al.، 2017). تم تنفيذ العمل كجزء من المهمة المشتركة لإعادة التوبيخ بشأن استنساخ التقييمات البشرية في NLG، في المسار الصحيح (ورقة 1). نهدف إلى تكرار الدراسة الأصلية بالضبط، مع الفرق الرئيسي الذي تم استخدام مجموعة مختلفة من المقيمين. نحن تصف تصميم الدراسة، وتقديم النتائج من دراسة النسخ الأصلية، ثم قارن وتحليل الاختلافات بين مجموعتين من النتائج. بالنسبة لنتائج المعتديين الأولين من الطلاقة والوضوح، نجد أنه في كلتا الدراسات، تم تصنيف النظام بشكل أكبر من أجل الوضوح أكثر من الطلاقة، وكان الوضوح انحراف معياري أعلى. كانت تصنيفات الوضوح والطلاقة أعلى، وانحرافاتها المعيارية أقل، في دراسة الاستنساخ أكثر من الدراسة الأصلية من الهوامش الكبيرة. كان الوضوح درجة أعلى من الاستيلاء من الطلاقة، كما تقاس معامل الاختلاف. البيانات والرمز متاحة للجمهور.
This paper reports results from a reproduction study in which we repeated the human evaluation of the PASS Dutch-language football report generation system (van der Lee et al., 2017). The work was carried out as part of the ReproGen Shared Task on Reproducibility of Human Evaluations in NLG, in Track A (Paper 1). We aimed to repeat the original study exactly, with the main difference that a different set of evaluators was used. We describe the study design, present the results from the original and the reproduction study, and then compare and analyse the differences between the two sets of results. For the two headline' results of average Fluency and Clarity, we find that in both studies, the system was rated more highly for Clarity than for Fluency, and Clarity had higher standard deviation. Clarity and Fluency ratings were higher, and their standard deviations lower, in the reproduction study than in the original study by substantial margins. Clarity had a higher degree of reproducibility than Fluency, as measured by the coefficient of variation. Data and code are publicly available.
المراجع المستخدمة
https://aclanthology.org/
التقييم البشري التجريدي لأنظمة الترجمة عالية الجودة الحديثة هي مشكلة صعبة، وهناك أدلة متزايدة على أن إجراءات التقييم غير الكافية يمكن أن تؤدي إلى استنتاجات خاطئة. بينما كان هناك بحث كبير في التقييم البشري، لا يزال الحقل يفتقر إلى إجراء قياسي شائع. كخ
تعد طاقة الرياح و الشمس من أهم مصادر الطاقة المتجددة بسبب وفرتها و اقتصاديتها, و يمكن الاستفادة من هذين المصدرين للطاقة المتجددة في منطقة قطينة التابعة لمحافظة حمص, لتصميم و بناء نظام طاقة كهربائي ثنائي المصادر (شمسي - ريحي) سيتم الاعتماد على المنحني
نسأل الموضوعات سواء كانوا ينظرون إلى وجود مجموعة من النصوص، وبعضها مكتوب بالفعل، في حين يتم إنشاء آخرين تلقائيا.نحن نستخدم هذه البيانات لضبط نموذج GPT-2 لدفعه لتوليد المزيد من النصوص التي يشبه الإنسان، ومراقبة أن هذا النموذج الذي تم ضبطه بشكل جيد ينت
احتلت الرياضة الاحترافية مكانا بارزا في الحياة العامة في القرن الماضي، و خصوصاً كرة
القدم التي أصبحت أكثر رياضة شعبية في العالم كله، لهذا الغرض تم بناء و تطوير
الملاعب الرياضية (الاستادات) لتكون مركزا تقام فيه الأحداث الرياضية و لتستوعب أكبر
عدد م
هذه الاستعراضات الورقة وتلخص ممارسات التقييم البشري الموضحة في 97 ورقة نقل النمط فيما يتعلق بثلاثة جوانب التقييم الرئيسية: نقل النمط، والمعنى بالحفظ، والطلاقة.من حيث المبدأ، يجب أن تكون التقييمات من قبل راتبي البشر هي الأكثر موثوقية.ومع ذلك، في أوراق