ترغب بنشر مسار تعليمي؟ اضغط هنا

لا يزال تقييم التلخيص مشكلة بحث مفتوحة: من المعروف أن المقاييس الحالية مثل الحمر محدودة وربطها بشكل سيء بأحكام بشرية.لتخفيف هذه المسألة، اقترحت العمل الحديث مقاييس التقييم التي تعتمد على الأسئلة في الإجابة على النماذج لتقييم ما إذا كان الملخص يحتوي ع لى جميع المعلومات ذات الصلة في وثيقتها المصدر.على الرغم من الواعدة، إلا أن النهج المقترحة فشلت حتى الآن في الارتباط بشكل أفضل من الحمر بأحكام بشرية.في هذه الورقة، نقدم النهج السابقة واقتراح إطار موحد، يدعى Questeval.على عكس مقاييس ثابتة مثل Rouge أو Bertscore، لا يتطلب Questeval أي مرجع حقيقي في الحقيقة.ومع ذلك، فإن Questeval يحسن بشكل كبير من الارتباط بالأحكام البشرية على أربع أبعاد تقييم (الاتساق والتماسك والطلاقة والأهمية)، كما هو مبين في تجارب واسعة النطاق.
خلاص ندرة الدراسات الشاملة الحديثة بشأن مقاييس التقييم لتلخيص النص ونقص توافق الآراء بشأن بروتوكولات التقييم لا تزال تمنع التقدم المحرز. نحن نتطلع إلى أوجه القصور الموجودة لأساليب تقييم التلخيص على طول خمسة أبعاد: 1) نعيد تقييم 14 مقيط تقييم تلقائي ف ي أزياء شاملة ومتسقة باستخدام مخرجات نموذج تلخيص العصبي جنبا إلى جنب مع التوضيحات البشرية الخبراء والجمهور؛ 2) نحن معيارون باستمرار 23 نماذج تلخيص حديثة باستخدام مقاييس التقييم التلقائي المذكورة أعلاه؛ 3) نحن نكذب أكبر مجموعة من الملخصات الناتجة عن النماذج المدربة على مجموعة بيانات CNN / DailyMail الأخبار ومشاركتها في شكل موحد؛ 4) نحن نفرا ومشاركة مجموعة أدوات توفر واجهة برمجة تطبيقية قابلة للتوسيع وغير موحدة لتقييم نماذج تلخيص عبر مجموعة واسعة من المقاييس التلقائية؛ 5) نحن نكذب ومشاركة أكبر وأكثرها تنوعا، من حيث الأنواع النموذجية، وجمع الأحكام البشرية من الملخصات التي تم إنشاؤها النموذجية على مجموعة بيانات CNN / Daily Mail المشروحة من قبل كلا من قضاة الخبراء والعاملين بمصدر الحشد. نأمل أن يساعد هذا العمل في تعزيز بروتوكول تقييم أكثر اكتمالا لتلخيص النص وكذلك البحث المسبق في تطوير مقاييس التقييم التي ترتبط بأحكام الإنسان بشكل أفضل.
مجردة تم تحديد نوعية تقييم تقييم التلخيص من خلال حساب الارتباط بين درجاته والشروح البشرية عبر عدد كبير من الملخصات. في الوقت الحالي، من غير الواضح مدى دقة تقديرات الارتباط هذه، ولا عما إذا كانت الاختلافات بين علاقات المقاييس تعكس فرقا حقيقيا أو إذا ك ان من المقرر أن مجرد فرصة. في هذا العمل، نتعامل مع هاتين المشكلتين من خلال اقتراح طرق لحساب فترات الثقة وتشغيل اختبارات الفرضية للترشيح باستخدام أساليب إعادة التقييد والنساء التمهيد والتلبيل. بعد تقييم أي من الأساليب المقترحة هو الأنسب للتلخيص من خلال تجربتي المحاكاة، نحلل نتائج تطبيق هذه الأساليب إلى العديد من مقاييس التقييم التلقائي المختلفة عبر ثلاث مجموعات من التعليقات الشروحية البشرية. نجد أن فترات الثقة هي واسعة إلى حد ما، مما يدل على عدم اليقين العالي في موثوقية المقاييس التلقائية. علاوة على ذلك، على الرغم من أن العديد من المقاييس يفشل في إظهار التحسينات الإحصائية على Rouge، فإن اثنين من الأعمال الأخيرة، Qaeval و Bertscore، تفعل ذلك في بعض إعدادات التقييم
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا