تفتقر الأبحاث الحديثة باستخدام نماذج اللغة المدربة مسبقا لمهمة تلخيص المستندات متعددة الوثائق إلى تحقيق عميق في الحالات الخاطئة المحتملة وتطبيقها المحتمل على اللغات الأخرى.في هذا العمل، نطبق نموذج لغة مدرب مسبقا (BART) لمهمة تلخيص متعدد الوثائق (MDS) باستخدام كل من الضبط الدقيق ودون ضبط جيد.نحن نستخدم مجموعات بيانات اللغة الإنجليزية ومجموعة بيانات ألمانية واحدة لهذه الدراسة.أولا، نقوم بإعادة إنتاج ملخصات متعددة الوثائق باللغة الإنجليزية باتباع إحدى الدراسات الحديثة.بعد ذلك، نعرض لقابلية تطبيق النموذج إلى اللغة الألمانية من خلال تحقيق أداء حديثة على MDS الألمانية.نقوم بإجراء تحليل خطأ متعمق للنهج التالي لكلتا اللغتين، مما يؤدي إلى تحديد معظم الأخطاء البارزة، من الحقائق الصادقة وتعليم الموضوع، وقياس مقدار الاستقصاء.
Recent research using pre-trained language models for multi-document summarization task lacks deep investigation of potential erroneous cases and their possible application on other languages. In this work, we apply a pre-trained language model (BART) for multi-document summarization (MDS) task using both fine-tuning and without fine-tuning. We use two English datasets and one German dataset for this study. First, we reproduce the multi-document summaries for English language by following one of the recent studies. Next, we show the applicability of the model to German language by achieving state-of-the-art performance on German MDS. We perform an in-depth error analysis of the followed approach for both languages, which leads us to identifying most notable errors, from made-up facts and topic delimitation, and quantifying the amount of extractiveness.
المراجع المستخدمة
https://aclanthology.org/
تقترح هذه الورقة نموذجا جديدا لتلخيص وثائق الجماعي، بارت هرمي (HIE-BART)، والذي يلتقط الهياكل الهرمية للمستند (I.E.، هياكل الجملة) في نموذج بارت.على الرغم من أن نموذج بارت الحالي قد حقق أداء أحدث في مهام تلخيص المستندات، إلا أن النموذج ليس لديه التفا
نقطة حرجة في تلخيص المستندات المتعددة (MDS) هي معرفة العلاقات بين مختلف الوثائق. في هذه الورقة، نقترح نموذجا جديدا للمغادرات الرواية، حيث نمثل مستندات متعددة كشركة بيانية غير متجانسة، حيث أخذت العقد الدلالية من التحبيبات المختلفة في الاعتبار، ثم قم ب
نقدم طريقة لتوليد ملخصات مقارنة تسليط الضوء على أوجه التشابه والتناقضات في وثائق المدخلات. التحدي الرئيسي في إنشاء هذه الملخصات هو عدم وجود بيانات تدريبية متوازية كبيرة مطلوبة لتدريب أنظمة التلخيص النموذجية. تحقيقا لهذه الغاية، نقدم نهج جيل مختلفي مس
هناك فرق حاسم بين تلخيص المستندات الفردية والمتعددة هو كيف يتجلى المحتوى البارز نفسه في المستند (المستندات). على الرغم من أن هذا المحتوى قد يظهر في بداية وثيقة واحدة، إلا أن المعلومات الأساسية تكرر بشكل متكرر في مجموعة من المستندات المتعلقة بموضوع مع
مجردة المقاييس المستخدمة بشكل أساسي لتقييم نماذج توليد اللغة الطبيعية (NLG)، مثل Bleu أو Meteor، تفشل في تقديم معلومات حول تأثير العوامل اللغوية الأداء. التركيز على تحقيق السطح (SR)، ومهمة تحويل شجرة تبعية غير مرتبة في جملة رائعة، نقترح إطارا لتحليل