ترغب بنشر مسار تعليمي؟ اضغط هنا

تحليل الأخطاء لاستخدام بارت لتلخيص متعدد الوثائق: دراسة اللغة الإنجليزية والألمانية

Error Analysis of using BART for Multi-Document Summarization: A Study for English and German Language

204   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تفتقر الأبحاث الحديثة باستخدام نماذج اللغة المدربة مسبقا لمهمة تلخيص المستندات متعددة الوثائق إلى تحقيق عميق في الحالات الخاطئة المحتملة وتطبيقها المحتمل على اللغات الأخرى.في هذا العمل، نطبق نموذج لغة مدرب مسبقا (BART) لمهمة تلخيص متعدد الوثائق (MDS) باستخدام كل من الضبط الدقيق ودون ضبط جيد.نحن نستخدم مجموعات بيانات اللغة الإنجليزية ومجموعة بيانات ألمانية واحدة لهذه الدراسة.أولا، نقوم بإعادة إنتاج ملخصات متعددة الوثائق باللغة الإنجليزية باتباع إحدى الدراسات الحديثة.بعد ذلك، نعرض لقابلية تطبيق النموذج إلى اللغة الألمانية من خلال تحقيق أداء حديثة على MDS الألمانية.نقوم بإجراء تحليل خطأ متعمق للنهج التالي لكلتا اللغتين، مما يؤدي إلى تحديد معظم الأخطاء البارزة، من الحقائق الصادقة وتعليم الموضوع، وقياس مقدار الاستقصاء.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقترح هذه الورقة نموذجا جديدا لتلخيص وثائق الجماعي، بارت هرمي (HIE-BART)، والذي يلتقط الهياكل الهرمية للمستند (I.E.، هياكل الجملة) في نموذج بارت.على الرغم من أن نموذج بارت الحالي قد حقق أداء أحدث في مهام تلخيص المستندات، إلا أن النموذج ليس لديه التفا علات بين المعلومات على مستوى الجملة ومعلومات على مستوى الكلمات.في مهام الترجمة الآلية، تم تحسين أداء نماذج الترجمة الآلية العصبية من خلال دمج اهتمام الذات المتعدد الحبيبية (MG-SA)، والذي يلتقط العلاقات بين الكلمات والعبارات.مستوحاة من العمل السابق، يشتمل نموذج HIE-BART المقترح على MG-SA في تشفير نموذج BART لالتقاط هياكل الجملة.تظهر التقييمات المتعلقة بطبقة بيانات CNN / Daily Mail أن نموذج HIE-BARD المقترح يفوق بعض خطوط الأساس القوية وتحسين أداء نموذج بارت غير هرمي (+0.23 Rouge-L).
نقطة حرجة في تلخيص المستندات المتعددة (MDS) هي معرفة العلاقات بين مختلف الوثائق. في هذه الورقة، نقترح نموذجا جديدا للمغادرات الرواية، حيث نمثل مستندات متعددة كشركة بيانية غير متجانسة، حيث أخذت العقد الدلالية من التحبيبات المختلفة في الاعتبار، ثم قم ب تطبيق إطار رسم بياني للتسلسل لتوليد ملخصات. علاوة على ذلك، فإننا نوظف نموذج موضوع عصبي لاستكشاف المواضيع الكامنة المشتركة التي يمكن أن تكون بمثابة وحدات دلالية عبر الوثيقة لتسجيل مستندات مختلفة وتوفير معلومات عالمية لتوجيه الجيل الموجز. نظرا لأن استخراج الموضوع يمكن أن ينظر إليه كنوع خاص من التلخيص الذي يلخص النصوص "نصوص" في شكل مجردة أكثر، أي توزيع موضوعي، نعتمد استراتيجية تعليمية متعددة المهام لتدريب المظهر والتلخيص المشترك، مما يسمح للترقية بعضهم البعض. توضح النتائج التجريبية على مجموعة بيانات الأخبار المتعددة أن نموذجنا يتفوق على نماذج MDS السابقة في كل من درجات Rouge والتقييم البشري، وفي الوقت نفسه يتعلم موضوعات عالية الجودة.
نقدم طريقة لتوليد ملخصات مقارنة تسليط الضوء على أوجه التشابه والتناقضات في وثائق المدخلات. التحدي الرئيسي في إنشاء هذه الملخصات هو عدم وجود بيانات تدريبية متوازية كبيرة مطلوبة لتدريب أنظمة التلخيص النموذجية. تحقيقا لهذه الغاية، نقدم نهج جيل مختلفي مس توحى من أنظمة المفاهيم التقليدية إلى النص. لتمكين المقارنة الدقيقة بين المصادر المختلفة، يتعلم النموذج أولا استخراج العلاقات ذات الصلة من وثائق المدخلات. يستخدم مكون تخطيط المحتوى المشغلين المحددين لتجميع هذه العلاقات بعد تحديد مجموعة فرعية للإدماج في ملخص. مكون إدراك السطح Lexicalizes هذه المعلومات باستخدام نموذج لغة تسقط النص. من خلال اختيار محتوى النمذجة بشكل منفصل وإدراكه، يمكننا تدريبها بشكل فعال مع التعليقات التوضيحية المحدودة. نفذنا واختبرنا النموذج في مجال التغذية والصحة - تنتشر بالتناسيل. مقارنة بالأساليب التقليدية، يؤدي إطارنا إلى تلخيص أكثر مخلصة وثيقة ومهمة الحساسة للتجميع - بينما يجري بطلاقة بنفس القدر.
هناك فرق حاسم بين تلخيص المستندات الفردية والمتعددة هو كيف يتجلى المحتوى البارز نفسه في المستند (المستندات). على الرغم من أن هذا المحتوى قد يظهر في بداية وثيقة واحدة، إلا أن المعلومات الأساسية تكرر بشكل متكرر في مجموعة من المستندات المتعلقة بموضوع مع ين، مما يؤدي إلى تأثير تأييد يزيد من حية معلومات المعلومات. في هذه الورقة، نقوم بالنماذج تأثير تأييد المستندات عبر المستندات واستخدامها في تلخيص مستندات متعددة. تقوم طريقتنا بإنشاء ملخص من كل مستند، والتي تعمل كموثوقية لتحديد المحتوى البارز من مستندات أخرى. يتم استخدام قطاعات نصية تم تأييدها بشدة لإثراء نموذج فك التشفير العصبي لتعزيزها في ملخص مبيعات. تتمتع هذه الطريقة بإمكانيات كبيرة للتعلم من أمثلة أقل لتحديد المحتوى البارزين، مما يخفف من الحاجة إلى إعادة تدريب مكلفة عند تعديل مجموعة المستندات بشكل حيوي. من خلال تجارب واسعة النطاق حول مجموعات بيانات تلخيص المستندات متعددة الوثائق القياسية، نوضح فعالية أسلوبنا المقترح على خطوط خطوط أساسية منشورة قوية. أخيرا، ألقينا الضوء على اتجاهات البحث في المستقبل ومناقشة تحديات أوسع من هذه المهمة باستخدام دراسة حالة.
مجردة المقاييس المستخدمة بشكل أساسي لتقييم نماذج توليد اللغة الطبيعية (NLG)، مثل Bleu أو Meteor، تفشل في تقديم معلومات حول تأثير العوامل اللغوية الأداء. التركيز على تحقيق السطح (SR)، ومهمة تحويل شجرة تبعية غير مرتبة في جملة رائعة، نقترح إطارا لتحليل الأخطاء الذي يسمح بتحديد ميزات الإدخال تؤثر على نتائج النماذج. يتكون هذا الإطار من عنصرين رئيسيين: (1) تحليلات الارتباط بين مجموعة واسعة من المقاييس النحوية ومقاييس الأداء القياسية و (2) مجموعة من التقنيات لتحديد البنيات النحوية تلقائيا والتي غالبا ما تحدث مع درجات أداء منخفضة. نوضح مزايا إطار الإطار الخاص بنا عن طريق إجراء تحليل الأخطاء في نتائج 174 يدير النظام المقدم إلى المهام المشتركة ل SR متعددة اللغات؛ نظهر أن دقة حافة التبعية ترتبط مع المقاييس التلقائية وبالتالي توفير أساس أكثر قابلية للتفسير للتقييم؛ ونقترح الطرق التي يمكن بها استخدام إطار عملنا لتحسين النماذج والبيانات. يتوفر الإطار في شكل مجموعة أدوات يمكن استخدامها على حد سواء من خلال منظمي الحملة لتوفير ملاحظات مفصلة، ​​من التفسير اللغوي على حالة الفن في مجال الإرسال المتعدد اللغات، والباحثين الفرديين لتحسين النماذج ومجموعات البيانات

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا