ترغب بنشر مسار تعليمي؟ اضغط هنا

التلخيص التلقائي متعدد الوثائق الموجهة للموضوع

Topic-Guided Abstractive Multi-Document Summarization

531   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقطة حرجة في تلخيص المستندات المتعددة (MDS) هي معرفة العلاقات بين مختلف الوثائق. في هذه الورقة، نقترح نموذجا جديدا للمغادرات الرواية، حيث نمثل مستندات متعددة كشركة بيانية غير متجانسة، حيث أخذت العقد الدلالية من التحبيبات المختلفة في الاعتبار، ثم قم بتطبيق إطار رسم بياني للتسلسل لتوليد ملخصات. علاوة على ذلك، فإننا نوظف نموذج موضوع عصبي لاستكشاف المواضيع الكامنة المشتركة التي يمكن أن تكون بمثابة وحدات دلالية عبر الوثيقة لتسجيل مستندات مختلفة وتوفير معلومات عالمية لتوجيه الجيل الموجز. نظرا لأن استخراج الموضوع يمكن أن ينظر إليه كنوع خاص من التلخيص الذي يلخص النصوص "نصوص" في شكل مجردة أكثر، أي توزيع موضوعي، نعتمد استراتيجية تعليمية متعددة المهام لتدريب المظهر والتلخيص المشترك، مما يسمح للترقية بعضهم البعض. توضح النتائج التجريبية على مجموعة بيانات الأخبار المتعددة أن نموذجنا يتفوق على نماذج MDS السابقة في كل من درجات Rouge والتقييم البشري، وفي الوقت نفسه يتعلم موضوعات عالية الجودة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم طريقة لتوليد ملخصات مقارنة تسليط الضوء على أوجه التشابه والتناقضات في وثائق المدخلات. التحدي الرئيسي في إنشاء هذه الملخصات هو عدم وجود بيانات تدريبية متوازية كبيرة مطلوبة لتدريب أنظمة التلخيص النموذجية. تحقيقا لهذه الغاية، نقدم نهج جيل مختلفي مس توحى من أنظمة المفاهيم التقليدية إلى النص. لتمكين المقارنة الدقيقة بين المصادر المختلفة، يتعلم النموذج أولا استخراج العلاقات ذات الصلة من وثائق المدخلات. يستخدم مكون تخطيط المحتوى المشغلين المحددين لتجميع هذه العلاقات بعد تحديد مجموعة فرعية للإدماج في ملخص. مكون إدراك السطح Lexicalizes هذه المعلومات باستخدام نموذج لغة تسقط النص. من خلال اختيار محتوى النمذجة بشكل منفصل وإدراكه، يمكننا تدريبها بشكل فعال مع التعليقات التوضيحية المحدودة. نفذنا واختبرنا النموذج في مجال التغذية والصحة - تنتشر بالتناسيل. مقارنة بالأساليب التقليدية، يؤدي إطارنا إلى تلخيص أكثر مخلصة وثيقة ومهمة الحساسة للتجميع - بينما يجري بطلاقة بنفس القدر.
تفتقر الأبحاث الحديثة باستخدام نماذج اللغة المدربة مسبقا لمهمة تلخيص المستندات متعددة الوثائق إلى تحقيق عميق في الحالات الخاطئة المحتملة وتطبيقها المحتمل على اللغات الأخرى.في هذا العمل، نطبق نموذج لغة مدرب مسبقا (BART) لمهمة تلخيص متعدد الوثائق (MDS) باستخدام كل من الضبط الدقيق ودون ضبط جيد.نحن نستخدم مجموعات بيانات اللغة الإنجليزية ومجموعة بيانات ألمانية واحدة لهذه الدراسة.أولا، نقوم بإعادة إنتاج ملخصات متعددة الوثائق باللغة الإنجليزية باتباع إحدى الدراسات الحديثة.بعد ذلك، نعرض لقابلية تطبيق النموذج إلى اللغة الألمانية من خلال تحقيق أداء حديثة على MDS الألمانية.نقوم بإجراء تحليل خطأ متعمق للنهج التالي لكلتا اللغتين، مما يؤدي إلى تحديد معظم الأخطاء البارزة، من الحقائق الصادقة وتعليم الموضوع، وقياس مقدار الاستقصاء.
هناك فرق حاسم بين تلخيص المستندات الفردية والمتعددة هو كيف يتجلى المحتوى البارز نفسه في المستند (المستندات). على الرغم من أن هذا المحتوى قد يظهر في بداية وثيقة واحدة، إلا أن المعلومات الأساسية تكرر بشكل متكرر في مجموعة من المستندات المتعلقة بموضوع مع ين، مما يؤدي إلى تأثير تأييد يزيد من حية معلومات المعلومات. في هذه الورقة، نقوم بالنماذج تأثير تأييد المستندات عبر المستندات واستخدامها في تلخيص مستندات متعددة. تقوم طريقتنا بإنشاء ملخص من كل مستند، والتي تعمل كموثوقية لتحديد المحتوى البارز من مستندات أخرى. يتم استخدام قطاعات نصية تم تأييدها بشدة لإثراء نموذج فك التشفير العصبي لتعزيزها في ملخص مبيعات. تتمتع هذه الطريقة بإمكانيات كبيرة للتعلم من أمثلة أقل لتحديد المحتوى البارزين، مما يخفف من الحاجة إلى إعادة تدريب مكلفة عند تعديل مجموعة المستندات بشكل حيوي. من خلال تجارب واسعة النطاق حول مجموعات بيانات تلخيص المستندات متعددة الوثائق القياسية، نوضح فعالية أسلوبنا المقترح على خطوط خطوط أساسية منشورة قوية. أخيرا، ألقينا الضوء على اتجاهات البحث في المستقبل ومناقشة تحديات أوسع من هذه المهمة باستخدام دراسة حالة.
إن السماح للمستخدمين بالتفاعل مع الملخصات المتعددة المستندات هو اتجاه واعد نحو تحسين وتخصيص النتائج الموجزة. تم اقتراح أفكار مختلفة للتلخيص التفاعلي في العمل السابق، لكن هذه الحلول متباينة للغاية ولا تضاهى. في هذه الورقة، نقوم بتطوير إطار تقييم نهاية إلى نهائي للتلخيص التفاعلي، مع التركيز على التفاعل القائم على التوسع، الذي يعتبر تتراكم المعلومات على طول جلسة مستخدم. يتضمن إطار عملنا إجراءات لجمع دورات المستخدم الحقيقية، وكذلك تدابير التقييم التي تعتمد على معايير تلخيص، ولكنها تتكيف مع تعكس التفاعل. جميع حلولنا ومواردنا متوفرة علنا ​​كمعيار، مما يسمح بمقارنة التطورات المستقبلية في تلخيص تفاعلي، وتحفز تقدم في تقييمها المنهجي. نوضح استخدام إطار العمل لدينا من خلال تقييم ومقارنة تطبيقات خط الأساس التي طورنا لهذا الغرض، والتي ستكون بمثابة جزء من معيارنا. تحفيز تجاربنا الواسعة وتحليلنا تصميم إطار التقييم المقترح ودعم صلاحيته.
كان الحمل الزائد المعلومات أحد التحديات المتعلقة بالمعلومات من الإنترنت. إنها ليست مسألة وصول المعلومات، بدلا من ذلك، تحول التركيز نحو جودة البيانات المستردة. لا سيما في مجال الأخبار، تقرير منافذ متعددة عن أحداث الأخبار نفسها ولكن قد يختلف في التفاصي ل. يعتبر هذا العمل أن منافذ أخبار مختلفة من المرجح أن تختلف في أساليب الكتابة واختيار الكلمات، وتقترح طريقة لاستخراج الجمل بناء على معلوماتها الرئيسية من خلال التركيز على المرادفات المشتركة في كل جملة. تحاول طريقتنا أيضا تقليل التكرار من خلال التجميع الهرمي وترتيب جمل مختارة على TransBert المقترحة. تشير النتائج إلى أن الإطار المقترح غير المعدل بنجاح يحسن التغطية والتماسك، وفي الوقت نفسه، يقلل من التكرار للحصول على ملخص تم إنشاؤه. علاوة على ذلك، نظرا لعملية الحصول على DataSet، نقترح أيضا طريقة تحسين البيانات لتخفيف مشاكل النصوص غير المرغوب فيها، والتي تنجم عن عملية تجريف تلقائي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا