ترغب بنشر مسار تعليمي؟ اضغط هنا

Refsum: إعادة صبط التلخيص العصبي

RefSum: Refactoring Neural Summarization

285   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

على الرغم من أن بعض الأعمال الحديثة تظهر التكامل المحتمل بين مختلف الأنظمة الحديثة، إلا أن القليل من الأعمال تحاول التحقيق في هذه المشكلة في تلخيص نص. يشير الباحثون في مجالات أخرى عادة إلى تقنيات إعادة تأهب أو تكديس الاقتراب من هذه المشكلة. في هذا العمل، نسلط الضوء على العديد من القيود للطرق السابقة، مما يحفزنا على تقديم عداء إطاري جديد يوفر وجهة نظر موحدة لتلخيص النص وركز الملخصات. تجريفيا، نقوم بإجراء تقييم شامل يتضمن أنظمة أساسية عشرين وأربعة مجموعات بيانات، وثلاثة سيناريوهات تطبيق مختلفة. إلى جانب نتائج جديدة من أحدث النتائج على DataSet CNN / DailyMail (46.18 Rouge-1)، فإننا نوضح أيضا كيف تتناول طريقةنا المقترحة قيود الطرق التقليدية وفعالية طراز Refactor Sheds الضوء على البصيرة تحسين. يمكن استخدام نظامنا مباشرة من قبل الباحثين الآخرين كأداة خارجية لتحقيق تحسينات أداء إضافية. نحن نفتح المصدر كل الكود وتقديم واجهة مريحة لاستخدامها: https://github.com/yixinl7/refactoring-summarization.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

خلاص ندرة الدراسات الشاملة الحديثة بشأن مقاييس التقييم لتلخيص النص ونقص توافق الآراء بشأن بروتوكولات التقييم لا تزال تمنع التقدم المحرز. نحن نتطلع إلى أوجه القصور الموجودة لأساليب تقييم التلخيص على طول خمسة أبعاد: 1) نعيد تقييم 14 مقيط تقييم تلقائي ف ي أزياء شاملة ومتسقة باستخدام مخرجات نموذج تلخيص العصبي جنبا إلى جنب مع التوضيحات البشرية الخبراء والجمهور؛ 2) نحن معيارون باستمرار 23 نماذج تلخيص حديثة باستخدام مقاييس التقييم التلقائي المذكورة أعلاه؛ 3) نحن نكذب أكبر مجموعة من الملخصات الناتجة عن النماذج المدربة على مجموعة بيانات CNN / DailyMail الأخبار ومشاركتها في شكل موحد؛ 4) نحن نفرا ومشاركة مجموعة أدوات توفر واجهة برمجة تطبيقية قابلة للتوسيع وغير موحدة لتقييم نماذج تلخيص عبر مجموعة واسعة من المقاييس التلقائية؛ 5) نحن نكذب ومشاركة أكبر وأكثرها تنوعا، من حيث الأنواع النموذجية، وجمع الأحكام البشرية من الملخصات التي تم إنشاؤها النموذجية على مجموعة بيانات CNN / Daily Mail المشروحة من قبل كلا من قضاة الخبراء والعاملين بمصدر الحشد. نأمل أن يساعد هذا العمل في تعزيز بروتوكول تقييم أكثر اكتمالا لتلخيص النص وكذلك البحث المسبق في تطوير مقاييس التقييم التي ترتبط بأحكام الإنسان بشكل أفضل.
مجردة تم تحديد نوعية تقييم تقييم التلخيص من خلال حساب الارتباط بين درجاته والشروح البشرية عبر عدد كبير من الملخصات. في الوقت الحالي، من غير الواضح مدى دقة تقديرات الارتباط هذه، ولا عما إذا كانت الاختلافات بين علاقات المقاييس تعكس فرقا حقيقيا أو إذا ك ان من المقرر أن مجرد فرصة. في هذا العمل، نتعامل مع هاتين المشكلتين من خلال اقتراح طرق لحساب فترات الثقة وتشغيل اختبارات الفرضية للترشيح باستخدام أساليب إعادة التقييد والنساء التمهيد والتلبيل. بعد تقييم أي من الأساليب المقترحة هو الأنسب للتلخيص من خلال تجربتي المحاكاة، نحلل نتائج تطبيق هذه الأساليب إلى العديد من مقاييس التقييم التلقائي المختلفة عبر ثلاث مجموعات من التعليقات الشروحية البشرية. نجد أن فترات الثقة هي واسعة إلى حد ما، مما يدل على عدم اليقين العالي في موثوقية المقاييس التلقائية. علاوة على ذلك، على الرغم من أن العديد من المقاييس يفشل في إظهار التحسينات الإحصائية على Rouge، فإن اثنين من الأعمال الأخيرة، Qaeval و Bertscore، تفعل ذلك في بعض إعدادات التقييم
في هذه الورقة، نقترح إطار جيل عصبي قابل للتحكم يمكن أن توجه بمرونة تلخيص الحوار مع تخطيط الكيانات المسماة الشخصية. يتم تعديل التسلسلات الشرطية لتحديد أنواع المعلومات أو منظور التركيز عند تشكيل ملخصات لمعالجة المشكلة الخاضعة للحدود في مهام التلخصات. ي دعم هذا الإطار نوعين من حالات الاستخدام: (1) منظور شامل، وهو حالة غرض لأغراض عامة مع عدم تحديد تفضيل المستخدم، بالنظر إلى نقاط موجزة من جميع محطات المحادثة والأشخاص المذكورين؛ (2) منظور التركيز، ضع الملخص بناء على كيان شخصي محدد من قبل المستخدم، والتي يمكن أن تكون واحدة من المحاورين أو أحد الأشخاص المذكورين في المحادثة. أثناء التدريب، استغلنا تخطيط حدوثها للكيانات المسماة الشخصية ومعلومات العناية الأساسية لتحسين الاتساق الزمني وتقليل الهلوسة في الجيل العصبي. تظهر النتائج التجريبية أن إطار عملنا المقترح يولد ملخصات بطلاقة ومتسقة في الواقع بموجب ضوابط التخطيط المختلفة باستخدام المقاييس الموضوعية والتقييمات البشرية.
نقطة حرجة في تلخيص المستندات المتعددة (MDS) هي معرفة العلاقات بين مختلف الوثائق. في هذه الورقة، نقترح نموذجا جديدا للمغادرات الرواية، حيث نمثل مستندات متعددة كشركة بيانية غير متجانسة، حيث أخذت العقد الدلالية من التحبيبات المختلفة في الاعتبار، ثم قم ب تطبيق إطار رسم بياني للتسلسل لتوليد ملخصات. علاوة على ذلك، فإننا نوظف نموذج موضوع عصبي لاستكشاف المواضيع الكامنة المشتركة التي يمكن أن تكون بمثابة وحدات دلالية عبر الوثيقة لتسجيل مستندات مختلفة وتوفير معلومات عالمية لتوجيه الجيل الموجز. نظرا لأن استخراج الموضوع يمكن أن ينظر إليه كنوع خاص من التلخيص الذي يلخص النصوص "نصوص" في شكل مجردة أكثر، أي توزيع موضوعي، نعتمد استراتيجية تعليمية متعددة المهام لتدريب المظهر والتلخيص المشترك، مما يسمح للترقية بعضهم البعض. توضح النتائج التجريبية على مجموعة بيانات الأخبار المتعددة أن نموذجنا يتفوق على نماذج MDS السابقة في كل من درجات Rouge والتقييم البشري، وفي الوقت نفسه يتعلم موضوعات عالية الجودة.
يتم تقييم أنظمة التلخيص في نهاية المطاف من قبل المشردين البشري والاتصالات.عادة ما لا يعكس الحنجرة والمسلمون التركيبة السكانية للمستخدمين النهائيين، ولكن يتم تجنيدهم من خلال سكان الطلاب أو منصات الجماعة الجماعية مع التركيبة السكانية المنحرفة.لسيناريوه ات التقييم المختلفة - التقييم ضد ملخصات الذهب وتصنيفات إنتاج النظام - نظهر أن التقييم الموجز حساس للسمات المحمية.هذا يمكن أن تنمية نظام التحيز والتقييم بشدة، مما يؤدي إلى بناء نماذج تلبي بعض المجموعات بدلا من غيرها.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا