توفر فقط جزء صغير من الأوراق البحثية مع التقييم البشري لتلخيص النص معلومات حول التركيبة السكانية المشارك وتصميم المهام وبروتوكول التجريب.بالإضافة إلى ذلك، يستخدم العديد من الباحثين التقييم البشري كمعيار ذهبي دون التشكيك في الموثوقية أو التحقيق في العوامل التي قد تؤثر على موثوقية التقييم البشري.نتيجة لذلك، هناك نقص في أفضل الممارسات لتقييم التلخيص البشري الموثوق به على أدلة تجريبية.للتحقيق في موثوقية التقييم البشري، نقوم بإجراء سلسلة من تجارب التقييم البشري، وتقديم نظرة عامة على التركيبة السكانية المشارك، وتصميم المهام، وإعداد التجريبية ومقارنة النتائج من تجارب مختلفة.بناء على تحليلنا التجريبي، نقدم مبادئ توجيهية لضمان موثوقية التقييمات الخبراء وغير الخبراء، ونحن نحدد العوامل التي قد تؤثر على موثوقية التقييم البشري.
Only a small portion of research papers with human evaluation for text summarization provide information about the participant demographics, task design, and experiment protocol. Additionally, many researchers use human evaluation as gold standard without questioning the reliability or investigating the factors that might affect the reliability of the human evaluation. As a result, there is a lack of best practices for reliable human summarization evaluation grounded by empirical evidence. To investigate human evaluation reliability, we conduct a series of human evaluation experiments, provide an overview of participant demographics, task design, experimental set-up and compare the results from different experiments. Based on our empirical analysis, we provide guidelines to ensure the reliability of expert and non-expert evaluations, and we determine the factors that might affect the reliability of the human evaluation.
المراجع المستخدمة
https://aclanthology.org/
تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة الب
في هذه الورقة، نقدم حسابا لكيفية نقلنا دورة نصية للتعدين النصوص عبر الإنترنت في الصيف 2020 نتيجة لوباء CovID-19 وكيف نحسنها في المدى الطيار الثاني.نحن تصف الدورة التدريبية، وكيف قمنا بتكييفها على المدىين الطيارين وما تقنيات التدريس التي اعتدنا عليها
هذه الاستعراضات الورقة وتلخص ممارسات التقييم البشري الموضحة في 97 ورقة نقل النمط فيما يتعلق بثلاثة جوانب التقييم الرئيسية: نقل النمط، والمعنى بالحفظ، والطلاقة.من حيث المبدأ، يجب أن تكون التقييمات من قبل راتبي البشر هي الأكثر موثوقية.ومع ذلك، في أوراق
في هذه الورقة، نطبق تقطير المعرفة الذاتية لتلخيص النص الذي نقوله أنه يمكن أن يخفف من مشاكل في الحد الأقصى للتدريب احتمالية على مجموعات بيانات مرجعية واحدة وصاخبة.بدلا من الاعتماد على ملصقات توضيحية ذات ساخنة واحدة، يتم تدريب نموذج تلخيص الطلاب لدينا
على الرغم من الأداء الحديثة، يمكن أن تكون أنظمة NLP هشة في مواقف العالم الحقيقي. غالبا ما يكون هذا بسبب عدم كفاية فهم قدرات وقيود النماذج والاعتماد الشديد على معايير التقييم القياسية. البحث في التقييم غير القياسي للتخفيف من هذا التجشير يكتسب اهتماما