ترغب بنشر مسار تعليمي؟ اضغط هنا

التخطيط مع الكيان المستفاد يطالب بتلخيص مبادرة

Planning with Learned Entity Prompts for Abstractive Summarization

325   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الملخص نقدم آلية بسيطة ولكن مرنة لتعلم خطة وسيطة للأرض جيل من ملخصات الجماعة. على وجه التحديد، نقوم بإعداد الملخصات المستهدفة (أو المطالبة) مع سلاسل الكيانات --- ترتيب تسلسل الكيانات المذكورة في الملخص. ثم يتم تدريب نماذج التسلسل المستندة إلى التسلسل على المحولات لتوليد سلسلة الكيان ثم تابع إنشاء الملخص مشروط على سلسلة الكيان والإدخال. جربنا كلا من الاحتمالات وتصفيتها مع هدف تخطيط المحتوى هذا. عند تقييمها على CNN / Dailymail، XSUM، SAMSUM، وبيلسين، نوضح تجريبيا أن الجيل الأسطوري له هدف التخطيط يحسن خصوصية الكيان والتخطيط في ملخصات لجميع مجموعات البيانات، وتحقق أداء حديثة على XSUM و SAMSUM من حيث الحمر. علاوة على ذلك، نوضح تجريبيا أن التخطيط مع سلاسل الكيانات يوفر آلية للسيطرة على الهلوسة في ملخصات مبادرة. من خلال مطالبة وحدة فك الترميز بخطة محتوى معدلة تنخفض الكيانات الهلوسة، فإننا نتفوق من الأساليب الحديثة من خلال الإخلاص عند تقييمها تلقائيا والبشر.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعتمد نماذج تلخيص الجماع بشكل كبير على آليات النسخ، مثل شبكة المؤشر أو الاهتمام، لتحقيق أداء جيد، تقاس بالتداخل النصي مع الملخصات المرجعية.نتيجة لذلك، تبقى الملخصات التي تم إنشاؤها بالقرب من التركيبات في المستند المصدر.نقترح نموذج * الحكم * نموذج لتو ليد المزيد من الملخصات الجماعية.يتضمن وحدة فك ترميز هرمي يقوم أولا بإنشاء تمثيل الجملة الموجزة التالية، ثم ظروف مولد Word على هذا التمثيل.إن ملخصاتنا الناتجة أكثر إشراك وفي الوقت نفسه تحقق درجات روج عالية عند مقارنتها بالملخصات المرجعية البشرية.نتحقق من فعالية قرارات التصميم لدينا بالتقييمات الواسعة.
نماذج التلخيص الحديثة تولد بطلاقة للغاية ولكن في كثير من الأحيان مخرجات غير موثوق بها في كثير من الأحيان.هذه الدافع الطفرة من المقاييس التي تحاول قياس واقعية الملخصات التي تم إنشاؤها تلقائيا.نظرا لعدم وجود معايير مشتركة، لا يمكن مقارنة هذه المقاييس.ع لاوة على ذلك، فإن كل هذه الطرق تعالج الواقعية كمفهوم ثنائي وفشل في توفير رؤى أعمق على أنواع التناقضات التي أدلى بها أنظمة مختلفة.لمعالجة هذه القيود، نرتند نماذج من الأخطاء الواقعية واستخدامها لجمع التعليقات التوضيحية الإنسانية من الملخصات التي تم إنشاؤها من أنظمة التلخيص الحديثة عن البيانات الخاصة ب CNN / DM و XSUM.من خلال هذه التعليقات التوضيحية، نحدد نسبة الفئات المختلفة للأخطاء الواقعية ومقاييس التقويمات القياسية، والتي تبين ارتباطها بالحكم البشري بالإضافة إلى نقاط القوة والضعف المحددة.
على الرغم من التقدم الكبير في تلخيص الجماع العصبي، أظهرت الدراسات الحديثة أن النماذج الحالية عرضة لإنشاء ملخصات غير مخلصة للسياق الأصلي. لمعالجة المشكلة، نقوم بدراسة توليد واختيار مرشح النقيض كتقنية نطاقات ما بعد المعالجة النموذجية لتصحيح الهلوسة الخ ارجية (I.E. المعلومات غير موجودة في نص المصدر) في ملخصات غير مخلصة. نتعلم نموذج تصحيح تمييزي عن طريق توليد ملخصات مرشحة بديلة حيث يتم استبدال الكيانات والكميات المسماة في الملخص الذي تم إنشاؤه بأشياء مع أنواع دلالية متوافقة من المستند المصدر. ثم يتم استخدام هذا النموذج لتحديد أفضل مرشح كملخص الناتج النهائي. تبين تجاربنا وتحليلنا عبر عدد من أنظمة التلخيص العصبية أن طريقةنا المقترحة فعالة في تحديد وتصحيح الهلوسة الخارجية. نقوم بتحليل ظاهرة الهلوسة النموذجية لأنواع مختلفة من أنظمة التلخيص العصبية، ونأمل أن تقدم رؤى للعمل في المستقبل على الاتجاه.
تلخيص الجماعي، مهمة توليد ملخص موجز لمستندات المدخلات، يتطلب: (1) التفكير في المستند المصدر لتحديد القطع البارزة من المعلومات المنتشرة عبر المستند الطويل، و (2) تأليف نص متماسك بإعادة بناء هذه الحقائق البارزة في ملخص أقصر يعكس بإخلاص العلاقات المعقدة التي تربط هذه الحقائق. في هذه الورقة، نتكيف مع TP-Transformer (Schlag et al.، 2019)، وهي عبارة عن بنية تثري المحولات الأصلية (Vaswani et al.، 2017) مع تمثيل المنتج التركيبي الصريح للتوتر (TPR)، لمهمة التلخيص المبشور وبعد الميزة الرئيسية لطرازنا هي التحيز الهيكلي الذي نقدمه من خلال ترميز مجموعتين منفصلين لكل رمزي لتمثيل الهيكل النحوي (مع ناقلات الدور) والمحتوى الدلالي (مع ناقلات حشو) بشكل منفصل. ثم يربط النموذج ثم متجاهلة الدور والحشو إلى TPR كإخراج الطبقة. نقول أن التمثيلات الوسيطة المنظمة تمكن النموذج من السيطرة بشكل أفضل على المحتويات (الحقائق البارزة) والهياكل (بناء الجملة الذي يربط الحقائق) عند إنشاء الملخص. وإظهار تجريبيا، نظرا لأن لدينا TP-Transforment تفوقنا على المحول ومحول TP الأصلي بشكل كبير على العديد من مجموعات بيانات تلخيص الجماع على حد سواء التقييمات التلقائية والإنسانية. في العديد من المهام التحقيق النحوية واللالسة، نوضح المعلومات الهيكلية الناشئة في مجاهاجر الدور واكتساب الأداء من خلال خصوصية المعلومات من مواقف الدور وتحسين الترجمة الترجمة الترجمة النحوية في مخرجات طبقة TPR. (التعليمات البرمجية المتاحة في HTTPS: // github.com/jianggyctarheel/tpt-summ)
هناك فرق حاسم بين تلخيص المستندات الفردية والمتعددة هو كيف يتجلى المحتوى البارز نفسه في المستند (المستندات). على الرغم من أن هذا المحتوى قد يظهر في بداية وثيقة واحدة، إلا أن المعلومات الأساسية تكرر بشكل متكرر في مجموعة من المستندات المتعلقة بموضوع مع ين، مما يؤدي إلى تأثير تأييد يزيد من حية معلومات المعلومات. في هذه الورقة، نقوم بالنماذج تأثير تأييد المستندات عبر المستندات واستخدامها في تلخيص مستندات متعددة. تقوم طريقتنا بإنشاء ملخص من كل مستند، والتي تعمل كموثوقية لتحديد المحتوى البارز من مستندات أخرى. يتم استخدام قطاعات نصية تم تأييدها بشدة لإثراء نموذج فك التشفير العصبي لتعزيزها في ملخص مبيعات. تتمتع هذه الطريقة بإمكانيات كبيرة للتعلم من أمثلة أقل لتحديد المحتوى البارزين، مما يخفف من الحاجة إلى إعادة تدريب مكلفة عند تعديل مجموعة المستندات بشكل حيوي. من خلال تجارب واسعة النطاق حول مجموعات بيانات تلخيص المستندات متعددة الوثائق القياسية، نوضح فعالية أسلوبنا المقترح على خطوط خطوط أساسية منشورة قوية. أخيرا، ألقينا الضوء على اتجاهات البحث في المستقبل ومناقشة تحديات أوسع من هذه المهمة باستخدام دراسة حالة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا