ترغب بنشر مسار تعليمي؟ اضغط هنا

موثوقية التقييم البشري لتلخيص النص: الدروس المستفادة والتحديات المقبلة

Reliability of Human Evaluation for Text Summarization: Lessons Learned and Challenges Ahead

390   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

توفر فقط جزء صغير من الأوراق البحثية مع التقييم البشري لتلخيص النص معلومات حول التركيبة السكانية المشارك وتصميم المهام وبروتوكول التجريب.بالإضافة إلى ذلك، يستخدم العديد من الباحثين التقييم البشري كمعيار ذهبي دون التشكيك في الموثوقية أو التحقيق في العوامل التي قد تؤثر على موثوقية التقييم البشري.نتيجة لذلك، هناك نقص في أفضل الممارسات لتقييم التلخيص البشري الموثوق به على أدلة تجريبية.للتحقيق في موثوقية التقييم البشري، نقوم بإجراء سلسلة من تجارب التقييم البشري، وتقديم نظرة عامة على التركيبة السكانية المشارك، وتصميم المهام، وإعداد التجريبية ومقارنة النتائج من تجارب مختلفة.بناء على تحليلنا التجريبي، نقدم مبادئ توجيهية لضمان موثوقية التقييمات الخبراء وغير الخبراء، ونحن نحدد العوامل التي قد تؤثر على موثوقية التقييم البشري.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة الب يانات التجميع والأنظمة "(Qader et al.، 2018) وتهدف إلى النسخ المتماثل، عن كثب إلى الأصل ممكن، التقييم البشري والمقارنة اللاحقة بين الأحكام الإنسانية ومقاييس التقييم التلقائي. هنا، نقوم أولا بتحديد مهمة جيل النص في ورقة قادر وآخرون. (2018). ثم، نحن نوثق كيف اقتربنا نسخينا من التقييم البشري للورقة. نناقش أيضا الصعوبات التي واجهناها والتي كانت المعلومات مفقودة. النسخ المتماثل لدينا له علاقة متوسطة إلى قوية (0.66 سبيرمان بشكل عام) مع النتائج الأصلية للقادير وآخرون. (2018)، ولكن بسبب المعلومات المفقودة حول مدى قادير وآخرون. (2018) مقارنة الأحكام الإنسانية بدرجات متري، امتنعنا عن إعادة إنتاج هذه المقارنة.
في هذه الورقة، نقدم حسابا لكيفية نقلنا دورة نصية للتعدين النصوص عبر الإنترنت في الصيف 2020 نتيجة لوباء CovID-19 وكيف نحسنها في المدى الطيار الثاني.نحن تصف الدورة التدريبية، وكيف قمنا بتكييفها على المدىين الطيارين وما تقنيات التدريس التي اعتدنا عليها تحسين تعلم الطلاب وبناء المجتمع عبر الإنترنت.كما نقدم معلومات عن الملاحظات بدون مساء التي تم جمعها خلال الدورة التدريبية التي ساعدتنا في تكييف تدريسنا من جلسة واحدة إلى الطيار التالي والآخر إلى التالي.نناقش الدروس المستفادة وتعزيز استخدام تقنيات التدريس المبتكرة المطبقة على الرقمية مثل الشارات الرقمية وبرمجة الزوج في غرف التحرذة لتدريس دورات معالجة اللغة الطبيعية للمبتدئين والطلاب مع خلفيات مختلفة.
هذه الاستعراضات الورقة وتلخص ممارسات التقييم البشري الموضحة في 97 ورقة نقل النمط فيما يتعلق بثلاثة جوانب التقييم الرئيسية: نقل النمط، والمعنى بالحفظ، والطلاقة.من حيث المبدأ، يجب أن تكون التقييمات من قبل راتبي البشر هي الأكثر موثوقية.ومع ذلك، في أوراق نقل النمط، نجد أن بروتوكولات التقييمات البشرية غالبا ما تكون غير محددة وغير موحدة، والتي تعيق استنساخ البحث في هذا المجال والتقدم نحو أساليب تقييم بشرية وتلقائية أفضل.
في هذه الورقة، نطبق تقطير المعرفة الذاتية لتلخيص النص الذي نقوله أنه يمكن أن يخفف من مشاكل في الحد الأقصى للتدريب احتمالية على مجموعات بيانات مرجعية واحدة وصاخبة.بدلا من الاعتماد على ملصقات توضيحية ذات ساخنة واحدة، يتم تدريب نموذج تلخيص الطلاب لدينا مع توجيهات من المعلم الذي يولد ملصقات سلاسة للمساعدة في تنظيم التدريب.علاوة على ذلك، لتحسين نموذج عدم اليقين أثناء التدريب، نقدم إشارات متعددة الضوضاء لكل من نماذج المعلم والطلاب.نوضح تجريبيا في ثلاثة معايير أن إطار عملائنا يعزز أداء كل من الملاحظات المحددة أو غير مسبوقة تحقيق نتائج حالة من الفنون.
على الرغم من الأداء الحديثة، يمكن أن تكون أنظمة NLP هشة في مواقف العالم الحقيقي. غالبا ما يكون هذا بسبب عدم كفاية فهم قدرات وقيود النماذج والاعتماد الشديد على معايير التقييم القياسية. البحث في التقييم غير القياسي للتخفيف من هذا التجشير يكتسب اهتماما متزايدا. والجدير بالذكر أن قائمة التحقق من مبدأ الاختبار السلوكي، التي كشفت الشكوب من التنفيذ عن إخفاقات كبيرة في النماذج الحديثة لمهام متعددة. في هذه الورقة، نقدم دراسة حالة لاستخدام قائمة مرجعية في سيناريو عملي. نقوم بإجراء تجارب لتقييم نظام الكشف عن المحتوى الهجومي واستخدام تقنية تكبير البيانات لتحسين النموذج باستخدام الأفكار من قائمة التحقق. وضعنا التحديات وتفتح الأسئلة القائمة على ملاحظاتنا لاستخدام قائمة مرجعية لتقييم الإنسان في الحلقة وتحسين أنظمة NLP. إخلاء المسئولية: تحتوي الورقة على أمثلة على المحتوى مع لغة مسيئة. لا تمثل الأمثلة آراء المؤلفين أو أرباب العمل تجاه أي شخص (ق) أو جماعي أو جماعي أو الممارسة (الممارسة) أو الكيان / الكيانات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا