ترغب بنشر مسار تعليمي؟ اضغط هنا

فهم التوظيف في تلخيص مبادرة مع فرانك: معيار لمقاييس التوظيف

Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics

284   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نماذج التلخيص الحديثة تولد بطلاقة للغاية ولكن في كثير من الأحيان مخرجات غير موثوق بها في كثير من الأحيان.هذه الدافع الطفرة من المقاييس التي تحاول قياس واقعية الملخصات التي تم إنشاؤها تلقائيا.نظرا لعدم وجود معايير مشتركة، لا يمكن مقارنة هذه المقاييس.علاوة على ذلك، فإن كل هذه الطرق تعالج الواقعية كمفهوم ثنائي وفشل في توفير رؤى أعمق على أنواع التناقضات التي أدلى بها أنظمة مختلفة.لمعالجة هذه القيود، نرتند نماذج من الأخطاء الواقعية واستخدامها لجمع التعليقات التوضيحية الإنسانية من الملخصات التي تم إنشاؤها من أنظمة التلخيص الحديثة عن البيانات الخاصة ب CNN / DM و XSUM.من خلال هذه التعليقات التوضيحية، نحدد نسبة الفئات المختلفة للأخطاء الواقعية ومقاييس التقويمات القياسية، والتي تبين ارتباطها بالحكم البشري بالإضافة إلى نقاط القوة والضعف المحددة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن ندرس توليد ملخصات مبادرة مخلصة ومتسقة فعليا مع المقالات المعينة. يتم تقديم صياغة تعليمية متناقضة جديدة، والتي ترفف كل من الملخصات المرجعية، كبيانات تدريب إيجابية، وإنشائها تلقائيا ملخصات خاطئة، كبيانات تدريب سلبية، لتدريب أنظمة التلخيص التي تكون أفضل في التمييز بينهما. ونحن كذلك تصميم أربعة أنواع من الاستراتيجيات لإنشاء عينات سلبية، لتشبه الأخطاء التي تحدث عادة من قبل نماذج من أحدث نماذج، بارت وبيغاسوس، الموجودة في التعليقات التوضيحية البشرية الجديدة من الأخطاء الموجزة. تجارب على Xsum و CNN / Daily Mail تشير إلى أن إطار التعلم المتعاقل لدينا قوي عبر مجموعات البيانات والنماذج. ينتج باستمرار ملخصات واقعية أكثر من المقارنات القوية مع تصحيح الأخطاء بعد وإعادة التشغيل القائمة على الاستقبال، والتدريب غير المباشر، وفقا لتقييم الواقعية القائم على الجودة. صدى القضاة البشرية الملاحظة وتجد أن ملخصاتنا النموذجية تصحح المزيد من الأخطاء.
يتم تدريب أنظمة توليد البيانات إلى النص على مجموعات البيانات الكبيرة، مثل Webnlg أو RO-Towire أو E2E أو DART. ما وراء مقاييس تقييم الرمز المميز التقليدي (بلو أو نيزك)، فإن القلق الرئيسي الذي يواجهه المولدات الأخيرة هو السيطرة على واقعية النص الذي تم إنشاؤه فيما يتعلق بمواصفات بيانات الإدخال. نبلغ عن تجربتنا عند تطوير نظام تقييم واقعي للوصول التوظيف لتوليد البيانات إلى النص الذي نختبره على بيانات Webnlg و E2E. نحن نهدف إلى إعداد بيانات ذهبية تفوحية يدويا لتحديد الحالات التي ينقل فيها النص معلومات أكثر مما يبرره على أساس البيانات قيد التشغيل (إضافي) أو فشل في توصيل البيانات التي تعد جزءا من الإدخال (مفقود). أثناء تحليل العينات المرجعية (البيانات والنص)، واجهنا مجموعة من عدم اليقين المنهجي المرتبط بالحالات المتعلقة بالظواهر الضمنية في النص، وطبيعة المعرفة غير اللغوية نتوقع أن نشارك عند تقييم الواقعية. ونحن نستمد من خبرتنا مجموعة من المبادئ التوجيهية التقييم للوصول إلى اتفاق مرتفع فيما يتعلق بالمعقيقات بشأن هذه الحالات.
على الرغم من التقدم الكبير في تلخيص الجماع العصبي، أظهرت الدراسات الحديثة أن النماذج الحالية عرضة لإنشاء ملخصات غير مخلصة للسياق الأصلي. لمعالجة المشكلة، نقوم بدراسة توليد واختيار مرشح النقيض كتقنية نطاقات ما بعد المعالجة النموذجية لتصحيح الهلوسة الخ ارجية (I.E. المعلومات غير موجودة في نص المصدر) في ملخصات غير مخلصة. نتعلم نموذج تصحيح تمييزي عن طريق توليد ملخصات مرشحة بديلة حيث يتم استبدال الكيانات والكميات المسماة في الملخص الذي تم إنشاؤه بأشياء مع أنواع دلالية متوافقة من المستند المصدر. ثم يتم استخدام هذا النموذج لتحديد أفضل مرشح كملخص الناتج النهائي. تبين تجاربنا وتحليلنا عبر عدد من أنظمة التلخيص العصبية أن طريقةنا المقترحة فعالة في تحديد وتصحيح الهلوسة الخارجية. نقوم بتحليل ظاهرة الهلوسة النموذجية لأنواع مختلفة من أنظمة التلخيص العصبية، ونأمل أن تقدم رؤى للعمل في المستقبل على الاتجاه.
بدأت أنظمة التلخيص المبخر مسبقا مدربة مسبقا في تحقيق أداء موثوق، ولكن عائق رئيسي أمام استخدامها في الممارسة العملية هو ميلهم لإخراج الملخصات التي لا تؤيد المدخلات وتحتوي على أخطاء واقعية. في حين تم استكشاف عدد من مجموعات البيانات المشروحة والنماذج ال إحصائية لتقييم التوظيف، إلا أنه لم يتم استكشاف صورة واضحة للأخطاء الأكثر أهمية لاستهداف أو عندما تنجح التقنيات الحالية والفشل. نستكشف كل من مصادر البيانات الاصطناعية والإنسانية ذات العلامات بين النماذج التدريبية لتحديد الأخطاء الواقعية في تلخيص، ودراسة الواقعية على مستوى الكلمة والاعتماد على مستوى الجملة. ملاحظاتنا هي ثلاثة أضعاف. أولا، تختلف الأخطاء الواقعية المعروضة بشكل كبير عبر مجموعات البيانات، والمجموعات التدريبية التي تستخدمها عادة من الأخطاء الاصطناعية البسيطة لا تعكس الأخطاء التي تم إجراؤها على مجموعات بيانات الجماعة مثل XSUM. ثانيا، توفر البيانات ذات العلامات البشرية ذات العلامات النووية ذات التوضيحية الدقيقة إشارة تدريب أكثر فعالية من التعليقات التوضيحية على مستوى الجملة أو البيانات الاصطناعية. أخيرا، نظير على أن أفضل نموذج الكشف عن الواقعين لدينا يتيح تدريب المزيد من نماذج تلخيص XSUM أكثر واقعية من خلال السماح لنا بتحديد الرموز المميزة غير الواقعية في بيانات التدريب.
يؤدي التكرار في جيل اللغة الطبيعية إلى تقليل معلومات النص ويجعله أقل جاذبية.تم اقتراح تقنيات مختلفة لتخفيفها.في هذا العمل، نستكشف واقتراح تقنيات للحد من التكرار في تلخيص مبادرة.أولا، نستكشف تطبيق التدريب غير المحامي وتضمين المصفوفين من العمل السابق ع لى نمذجة اللغة إلى تلخيص مبادرة.بعد ذلك، نقوم بتوسيع التغطية وآليات الاهتمام الزمني إلى مستوى الرمز المميز للحد من التكرار.في تجاربنا على مجموعة بيانات CNN / Daily Mail، نلاحظ أن هذه التقنيات تقلل من مقدار التكرار وزيادة معلومات الإصلاحية من الملخصات، والتي نؤكد عن طريق التقييم البشري.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا