ترغب بنشر مسار تعليمي؟ اضغط هنا

Nutri-Bullets Hybrid: تلخيص توثيق متعدد الوثائق

Nutri-bullets Hybrid: Consensual Multi-document Summarization

378   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم طريقة لتوليد ملخصات مقارنة تسليط الضوء على أوجه التشابه والتناقضات في وثائق المدخلات. التحدي الرئيسي في إنشاء هذه الملخصات هو عدم وجود بيانات تدريبية متوازية كبيرة مطلوبة لتدريب أنظمة التلخيص النموذجية. تحقيقا لهذه الغاية، نقدم نهج جيل مختلفي مستوحى من أنظمة المفاهيم التقليدية إلى النص. لتمكين المقارنة الدقيقة بين المصادر المختلفة، يتعلم النموذج أولا استخراج العلاقات ذات الصلة من وثائق المدخلات. يستخدم مكون تخطيط المحتوى المشغلين المحددين لتجميع هذه العلاقات بعد تحديد مجموعة فرعية للإدماج في ملخص. مكون إدراك السطح Lexicalizes هذه المعلومات باستخدام نموذج لغة تسقط النص. من خلال اختيار محتوى النمذجة بشكل منفصل وإدراكه، يمكننا تدريبها بشكل فعال مع التعليقات التوضيحية المحدودة. نفذنا واختبرنا النموذج في مجال التغذية والصحة - تنتشر بالتناسيل. مقارنة بالأساليب التقليدية، يؤدي إطارنا إلى تلخيص أكثر مخلصة وثيقة ومهمة الحساسة للتجميع - بينما يجري بطلاقة بنفس القدر.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقطة حرجة في تلخيص المستندات المتعددة (MDS) هي معرفة العلاقات بين مختلف الوثائق. في هذه الورقة، نقترح نموذجا جديدا للمغادرات الرواية، حيث نمثل مستندات متعددة كشركة بيانية غير متجانسة، حيث أخذت العقد الدلالية من التحبيبات المختلفة في الاعتبار، ثم قم ب تطبيق إطار رسم بياني للتسلسل لتوليد ملخصات. علاوة على ذلك، فإننا نوظف نموذج موضوع عصبي لاستكشاف المواضيع الكامنة المشتركة التي يمكن أن تكون بمثابة وحدات دلالية عبر الوثيقة لتسجيل مستندات مختلفة وتوفير معلومات عالمية لتوجيه الجيل الموجز. نظرا لأن استخراج الموضوع يمكن أن ينظر إليه كنوع خاص من التلخيص الذي يلخص النصوص "نصوص" في شكل مجردة أكثر، أي توزيع موضوعي، نعتمد استراتيجية تعليمية متعددة المهام لتدريب المظهر والتلخيص المشترك، مما يسمح للترقية بعضهم البعض. توضح النتائج التجريبية على مجموعة بيانات الأخبار المتعددة أن نموذجنا يتفوق على نماذج MDS السابقة في كل من درجات Rouge والتقييم البشري، وفي الوقت نفسه يتعلم موضوعات عالية الجودة.
إن السماح للمستخدمين بالتفاعل مع الملخصات المتعددة المستندات هو اتجاه واعد نحو تحسين وتخصيص النتائج الموجزة. تم اقتراح أفكار مختلفة للتلخيص التفاعلي في العمل السابق، لكن هذه الحلول متباينة للغاية ولا تضاهى. في هذه الورقة، نقوم بتطوير إطار تقييم نهاية إلى نهائي للتلخيص التفاعلي، مع التركيز على التفاعل القائم على التوسع، الذي يعتبر تتراكم المعلومات على طول جلسة مستخدم. يتضمن إطار عملنا إجراءات لجمع دورات المستخدم الحقيقية، وكذلك تدابير التقييم التي تعتمد على معايير تلخيص، ولكنها تتكيف مع تعكس التفاعل. جميع حلولنا ومواردنا متوفرة علنا ​​كمعيار، مما يسمح بمقارنة التطورات المستقبلية في تلخيص تفاعلي، وتحفز تقدم في تقييمها المنهجي. نوضح استخدام إطار العمل لدينا من خلال تقييم ومقارنة تطبيقات خط الأساس التي طورنا لهذا الغرض، والتي ستكون بمثابة جزء من معيارنا. تحفيز تجاربنا الواسعة وتحليلنا تصميم إطار التقييم المقترح ودعم صلاحيته.
كان الحمل الزائد المعلومات أحد التحديات المتعلقة بالمعلومات من الإنترنت. إنها ليست مسألة وصول المعلومات، بدلا من ذلك، تحول التركيز نحو جودة البيانات المستردة. لا سيما في مجال الأخبار، تقرير منافذ متعددة عن أحداث الأخبار نفسها ولكن قد يختلف في التفاصي ل. يعتبر هذا العمل أن منافذ أخبار مختلفة من المرجح أن تختلف في أساليب الكتابة واختيار الكلمات، وتقترح طريقة لاستخراج الجمل بناء على معلوماتها الرئيسية من خلال التركيز على المرادفات المشتركة في كل جملة. تحاول طريقتنا أيضا تقليل التكرار من خلال التجميع الهرمي وترتيب جمل مختارة على TransBert المقترحة. تشير النتائج إلى أن الإطار المقترح غير المعدل بنجاح يحسن التغطية والتماسك، وفي الوقت نفسه، يقلل من التكرار للحصول على ملخص تم إنشاؤه. علاوة على ذلك، نظرا لعملية الحصول على DataSet، نقترح أيضا طريقة تحسين البيانات لتخفيف مشاكل النصوص غير المرغوب فيها، والتي تنجم عن عملية تجريف تلقائي.
تفتقر الأبحاث الحديثة باستخدام نماذج اللغة المدربة مسبقا لمهمة تلخيص المستندات متعددة الوثائق إلى تحقيق عميق في الحالات الخاطئة المحتملة وتطبيقها المحتمل على اللغات الأخرى.في هذا العمل، نطبق نموذج لغة مدرب مسبقا (BART) لمهمة تلخيص متعدد الوثائق (MDS) باستخدام كل من الضبط الدقيق ودون ضبط جيد.نحن نستخدم مجموعات بيانات اللغة الإنجليزية ومجموعة بيانات ألمانية واحدة لهذه الدراسة.أولا، نقوم بإعادة إنتاج ملخصات متعددة الوثائق باللغة الإنجليزية باتباع إحدى الدراسات الحديثة.بعد ذلك، نعرض لقابلية تطبيق النموذج إلى اللغة الألمانية من خلال تحقيق أداء حديثة على MDS الألمانية.نقوم بإجراء تحليل خطأ متعمق للنهج التالي لكلتا اللغتين، مما يؤدي إلى تحديد معظم الأخطاء البارزة، من الحقائق الصادقة وتعليم الموضوع، وقياس مقدار الاستقصاء.
تقدم هذه الورقة نهجا فعالا معززا في الرسم البياني لتلخيص متعدد الوثائق (MDS) مع نموذج محول ترميز فك التشفير. يعتمد هذا النموذج على التطورات الحديثة في التدريب المسبق على كل من التشفير والكشف عن البيانات النصية الكبيرة للغاية (لويس وآخرون، 2019)، ويتض من آلية ترميز فعالة (Beltagy et al.، 2020) التي تتجنب نمو الذاكرة التربيعية نموذجي للمحولات التقليدية. نظهر أن هذا المجموعة القوية ليس فقط المقاييس لوثائق المدخلات الكبيرة التي تم العثور عليها عادة عند تلخيص مجموعات إخبارية؛ كما تمكننا من معالجة مدخلات إضافية في شكل تمثيلات رسم بياني إضافي، والتي نستمدها من مجموعات متعددة الوثائق. نقدم آلية لإدراج معلومات الرسم البياني هذه في نموذج ترميز التشفير الذي تم تدريبه مسبقا على النص فقط. يؤدي نهجنا إلى تحسينات كبيرة في مجموعة بيانات الأخبار المتعددة، بشكل عام يؤدي إلى تحسن نقاط Rouge في المتوسط ​​1.8 على العمل السابق (لي وآخرون، 2020). نعرض أيضا تحسينات في إعداد نقل فقط على DUC-2004 DataSet. يؤدي ترميزات الرسم البياني إلى ملخصات أكثر إفراط. يوضح التقييم البشري أنهم أكثر إفادة أكثر إفادة ومستمرة في الواقع مع وثائق المدخلات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا