ترغب بنشر مسار تعليمي؟ اضغط هنا

تحليل إحصائي لمقاييس تقييم التلخيص باستخدام أساليب إعادة التشكيل

A Statistical Analysis of Summarization Evaluation Metrics Using Resampling Methods

277   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مجردة تم تحديد نوعية تقييم تقييم التلخيص من خلال حساب الارتباط بين درجاته والشروح البشرية عبر عدد كبير من الملخصات. في الوقت الحالي، من غير الواضح مدى دقة تقديرات الارتباط هذه، ولا عما إذا كانت الاختلافات بين علاقات المقاييس تعكس فرقا حقيقيا أو إذا كان من المقرر أن مجرد فرصة. في هذا العمل، نتعامل مع هاتين المشكلتين من خلال اقتراح طرق لحساب فترات الثقة وتشغيل اختبارات الفرضية للترشيح باستخدام أساليب إعادة التقييد والنساء التمهيد والتلبيل. بعد تقييم أي من الأساليب المقترحة هو الأنسب للتلخيص من خلال تجربتي المحاكاة، نحلل نتائج تطبيق هذه الأساليب إلى العديد من مقاييس التقييم التلقائي المختلفة عبر ثلاث مجموعات من التعليقات الشروحية البشرية. نجد أن فترات الثقة هي واسعة إلى حد ما، مما يدل على عدم اليقين العالي في موثوقية المقاييس التلقائية. علاوة على ذلك، على الرغم من أن العديد من المقاييس يفشل في إظهار التحسينات الإحصائية على Rouge، فإن اثنين من الأعمال الأخيرة، Qaeval و Bertscore، تفعل ذلك في بعض إعدادات التقييم



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

خلاص ندرة الدراسات الشاملة الحديثة بشأن مقاييس التقييم لتلخيص النص ونقص توافق الآراء بشأن بروتوكولات التقييم لا تزال تمنع التقدم المحرز. نحن نتطلع إلى أوجه القصور الموجودة لأساليب تقييم التلخيص على طول خمسة أبعاد: 1) نعيد تقييم 14 مقيط تقييم تلقائي ف ي أزياء شاملة ومتسقة باستخدام مخرجات نموذج تلخيص العصبي جنبا إلى جنب مع التوضيحات البشرية الخبراء والجمهور؛ 2) نحن معيارون باستمرار 23 نماذج تلخيص حديثة باستخدام مقاييس التقييم التلقائي المذكورة أعلاه؛ 3) نحن نكذب أكبر مجموعة من الملخصات الناتجة عن النماذج المدربة على مجموعة بيانات CNN / DailyMail الأخبار ومشاركتها في شكل موحد؛ 4) نحن نفرا ومشاركة مجموعة أدوات توفر واجهة برمجة تطبيقية قابلة للتوسيع وغير موحدة لتقييم نماذج تلخيص عبر مجموعة واسعة من المقاييس التلقائية؛ 5) نحن نكذب ومشاركة أكبر وأكثرها تنوعا، من حيث الأنواع النموذجية، وجمع الأحكام البشرية من الملخصات التي تم إنشاؤها النموذجية على مجموعة بيانات CNN / Daily Mail المشروحة من قبل كلا من قضاة الخبراء والعاملين بمصدر الحشد. نأمل أن يساعد هذا العمل في تعزيز بروتوكول تقييم أكثر اكتمالا لتلخيص النص وكذلك البحث المسبق في تطوير مقاييس التقييم التي ترتبط بأحكام الإنسان بشكل أفضل.
على الرغم من أن بعض الأعمال الحديثة تظهر التكامل المحتمل بين مختلف الأنظمة الحديثة، إلا أن القليل من الأعمال تحاول التحقيق في هذه المشكلة في تلخيص نص. يشير الباحثون في مجالات أخرى عادة إلى تقنيات إعادة تأهب أو تكديس الاقتراب من هذه المشكلة. في هذا ال عمل، نسلط الضوء على العديد من القيود للطرق السابقة، مما يحفزنا على تقديم عداء إطاري جديد يوفر وجهة نظر موحدة لتلخيص النص وركز الملخصات. تجريفيا، نقوم بإجراء تقييم شامل يتضمن أنظمة أساسية عشرين وأربعة مجموعات بيانات، وثلاثة سيناريوهات تطبيق مختلفة. إلى جانب نتائج جديدة من أحدث النتائج على DataSet CNN / DailyMail (46.18 Rouge-1)، فإننا نوضح أيضا كيف تتناول طريقةنا المقترحة قيود الطرق التقليدية وفعالية طراز Refactor Sheds الضوء على البصيرة تحسين. يمكن استخدام نظامنا مباشرة من قبل الباحثين الآخرين كأداة خارجية لتحقيق تحسينات أداء إضافية. نحن نفتح المصدر كل الكود وتقديم واجهة مريحة لاستخدامها: https://github.com/yixinl7/refactoring-summarization.
يتم تقييم أنظمة التلخيص في نهاية المطاف من قبل المشردين البشري والاتصالات.عادة ما لا يعكس الحنجرة والمسلمون التركيبة السكانية للمستخدمين النهائيين، ولكن يتم تجنيدهم من خلال سكان الطلاب أو منصات الجماعة الجماعية مع التركيبة السكانية المنحرفة.لسيناريوه ات التقييم المختلفة - التقييم ضد ملخصات الذهب وتصنيفات إنتاج النظام - نظهر أن التقييم الموجز حساس للسمات المحمية.هذا يمكن أن تنمية نظام التحيز والتقييم بشدة، مما يؤدي إلى بناء نماذج تلبي بعض المجموعات بدلا من غيرها.
نماذج التلخيص الحديثة تولد بطلاقة للغاية ولكن في كثير من الأحيان مخرجات غير موثوق بها في كثير من الأحيان.هذه الدافع الطفرة من المقاييس التي تحاول قياس واقعية الملخصات التي تم إنشاؤها تلقائيا.نظرا لعدم وجود معايير مشتركة، لا يمكن مقارنة هذه المقاييس.ع لاوة على ذلك، فإن كل هذه الطرق تعالج الواقعية كمفهوم ثنائي وفشل في توفير رؤى أعمق على أنواع التناقضات التي أدلى بها أنظمة مختلفة.لمعالجة هذه القيود، نرتند نماذج من الأخطاء الواقعية واستخدامها لجمع التعليقات التوضيحية الإنسانية من الملخصات التي تم إنشاؤها من أنظمة التلخيص الحديثة عن البيانات الخاصة ب CNN / DM و XSUM.من خلال هذه التعليقات التوضيحية، نحدد نسبة الفئات المختلفة للأخطاء الواقعية ومقاييس التقويمات القياسية، والتي تبين ارتباطها بالحكم البشري بالإضافة إلى نقاط القوة والضعف المحددة.
تجزئة الكلمات الفرعية هي حاليا أداة قياسية لتدريب أنظمة الترجمة الآلية العصبية (MT) ومهام NLP الأخرى. الهدف هو تقسيم الكلمات (في المصدر واللغات المستهدفة) إلى وحدات أصغر تشكل بعد ذلك المدخلات ومفردات نظام MT. الهدف من الحد من حجم المدخلات ومفردات الإ خراج هو زيادة قدرات تعميم نموذج الترجمة، مما يتيح للنظام ترجمة وإنشاء كلمات نادرة وجديدة (غير مرئية) في وقت الاستدلال من خلال الجمع بين الوحدات الفرعية التي شوهدت سابقا. من الناحية المثالية، نتوقع أن تحتوي الوحدات التي تم إنشاؤها بعض المعنى اللغوي، بحيث يتم إنشاء الكلمات بطريقة ترفيهية. ومع ذلك، فإن أكثر طريقة تقسيم الكلمات الأكثر شعبية، ترميز بايت زوج (BPE)، والتي تنشأ من أدب ضغط البيانات، لا تشمل معايير صريحة لصالح الانقصام اللغوي أو للعثور على الحبيبية الفرعية الأمثل للكلمة الفرعية لبيانات التدريب المعطاة. في هذه الورقة، نقترح امتداد دوافع إحصائية خوارزمية BPE ومعيار التقارب الفعال الذي يتجنب دورة التجربة المكلفة اللازمة لتحديد أفضل حجم المفردات الفرعية. تظهر النتائج التجريبية مع اللغات الغنية المورفولوجية أن نموذجنا يحصل على درجات Bleu المثالية تقريبا وتنتج تجزئة كلمات أفضل مورفولوجية، مما يسمح بتوسيع نطاق تعميم BPE في ترجمة الجمل التي تحتوي على كلمات جديدة، كما هو موضح عبر التقييم البشري.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا