ترغب بنشر مسار تعليمي؟ اضغط هنا

تلخيص المستندات متعددة الوثائق غير الخاضعة للإخبارية

Unsupervised Multi-document Summarization for News Corpus with Key Synonyms and Contextual Embeddings

468   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

كان الحمل الزائد المعلومات أحد التحديات المتعلقة بالمعلومات من الإنترنت. إنها ليست مسألة وصول المعلومات، بدلا من ذلك، تحول التركيز نحو جودة البيانات المستردة. لا سيما في مجال الأخبار، تقرير منافذ متعددة عن أحداث الأخبار نفسها ولكن قد يختلف في التفاصيل. يعتبر هذا العمل أن منافذ أخبار مختلفة من المرجح أن تختلف في أساليب الكتابة واختيار الكلمات، وتقترح طريقة لاستخراج الجمل بناء على معلوماتها الرئيسية من خلال التركيز على المرادفات المشتركة في كل جملة. تحاول طريقتنا أيضا تقليل التكرار من خلال التجميع الهرمي وترتيب جمل مختارة على TransBert المقترحة. تشير النتائج إلى أن الإطار المقترح غير المعدل بنجاح يحسن التغطية والتماسك، وفي الوقت نفسه، يقلل من التكرار للحصول على ملخص تم إنشاؤه. علاوة على ذلك، نظرا لعملية الحصول على DataSet، نقترح أيضا طريقة تحسين البيانات لتخفيف مشاكل النصوص غير المرغوب فيها، والتي تنجم عن عملية تجريف تلقائي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

إن السماح للمستخدمين بالتفاعل مع الملخصات المتعددة المستندات هو اتجاه واعد نحو تحسين وتخصيص النتائج الموجزة. تم اقتراح أفكار مختلفة للتلخيص التفاعلي في العمل السابق، لكن هذه الحلول متباينة للغاية ولا تضاهى. في هذه الورقة، نقوم بتطوير إطار تقييم نهاية إلى نهائي للتلخيص التفاعلي، مع التركيز على التفاعل القائم على التوسع، الذي يعتبر تتراكم المعلومات على طول جلسة مستخدم. يتضمن إطار عملنا إجراءات لجمع دورات المستخدم الحقيقية، وكذلك تدابير التقييم التي تعتمد على معايير تلخيص، ولكنها تتكيف مع تعكس التفاعل. جميع حلولنا ومواردنا متوفرة علنا ​​كمعيار، مما يسمح بمقارنة التطورات المستقبلية في تلخيص تفاعلي، وتحفز تقدم في تقييمها المنهجي. نوضح استخدام إطار العمل لدينا من خلال تقييم ومقارنة تطبيقات خط الأساس التي طورنا لهذا الغرض، والتي ستكون بمثابة جزء من معيارنا. تحفيز تجاربنا الواسعة وتحليلنا تصميم إطار التقييم المقترح ودعم صلاحيته.
تصف هذه الورقة تقديمها لمهمة LongsUMM في SDP 2021. نقترح طريقة لإدماج مظاهرة الجملة التي تنتجها نماذج لغة عميقة في تقنيات تلخيص الاستخراج بناء على مركزية الرسم البياني بطريقة غير منشأة. الطريقة المقترحة بسيطة، سريعة، يمكن أن تلخيص أينوع من وثيقة أي ح جم ويمكن أن تلبي أي قيود طول الملخصات المنتجة.توفر الطريقة أداء تنافسي أساليب أكثر تطورا أكثر تطورا ويمكن أن تكون بمثابة وكيل لتقنيات تلخيص الجماع
نقدم طريقة لتوليد ملخصات مقارنة تسليط الضوء على أوجه التشابه والتناقضات في وثائق المدخلات. التحدي الرئيسي في إنشاء هذه الملخصات هو عدم وجود بيانات تدريبية متوازية كبيرة مطلوبة لتدريب أنظمة التلخيص النموذجية. تحقيقا لهذه الغاية، نقدم نهج جيل مختلفي مس توحى من أنظمة المفاهيم التقليدية إلى النص. لتمكين المقارنة الدقيقة بين المصادر المختلفة، يتعلم النموذج أولا استخراج العلاقات ذات الصلة من وثائق المدخلات. يستخدم مكون تخطيط المحتوى المشغلين المحددين لتجميع هذه العلاقات بعد تحديد مجموعة فرعية للإدماج في ملخص. مكون إدراك السطح Lexicalizes هذه المعلومات باستخدام نموذج لغة تسقط النص. من خلال اختيار محتوى النمذجة بشكل منفصل وإدراكه، يمكننا تدريبها بشكل فعال مع التعليقات التوضيحية المحدودة. نفذنا واختبرنا النموذج في مجال التغذية والصحة - تنتشر بالتناسيل. مقارنة بالأساليب التقليدية، يؤدي إطارنا إلى تلخيص أكثر مخلصة وثيقة ومهمة الحساسة للتجميع - بينما يجري بطلاقة بنفس القدر.
هناك فرق حاسم بين تلخيص المستندات الفردية والمتعددة هو كيف يتجلى المحتوى البارز نفسه في المستند (المستندات). على الرغم من أن هذا المحتوى قد يظهر في بداية وثيقة واحدة، إلا أن المعلومات الأساسية تكرر بشكل متكرر في مجموعة من المستندات المتعلقة بموضوع مع ين، مما يؤدي إلى تأثير تأييد يزيد من حية معلومات المعلومات. في هذه الورقة، نقوم بالنماذج تأثير تأييد المستندات عبر المستندات واستخدامها في تلخيص مستندات متعددة. تقوم طريقتنا بإنشاء ملخص من كل مستند، والتي تعمل كموثوقية لتحديد المحتوى البارز من مستندات أخرى. يتم استخدام قطاعات نصية تم تأييدها بشدة لإثراء نموذج فك التشفير العصبي لتعزيزها في ملخص مبيعات. تتمتع هذه الطريقة بإمكانيات كبيرة للتعلم من أمثلة أقل لتحديد المحتوى البارزين، مما يخفف من الحاجة إلى إعادة تدريب مكلفة عند تعديل مجموعة المستندات بشكل حيوي. من خلال تجارب واسعة النطاق حول مجموعات بيانات تلخيص المستندات متعددة الوثائق القياسية، نوضح فعالية أسلوبنا المقترح على خطوط خطوط أساسية منشورة قوية. أخيرا، ألقينا الضوء على اتجاهات البحث في المستقبل ومناقشة تحديات أوسع من هذه المهمة باستخدام دراسة حالة.
معظم أساليب تلخيص المستندات النسخة الاستخراجية الحالية (MDS) تسجل كل جملة بشكل فردي واستخراج الجمل الباردة واحدا تلو الآخر لتكوين ملخص، ولديه عاطفي رئيسيين: (1) إهمال العلاقات داخل الوثائق بين الجمل؛ (2) إهمال التماسك وجواء الملخص بأكمله. في هذه الور قة، نقترح إطار عمل MDS الرواية (SGSUM) لصياغة مهمة MDS كأداة اختيار Sub-Graph، حيث تعتبر المستندات المصدر بيانيا العلاقة من الجمل (على سبيل المثال، الرسم البياني التشابه أو الرسم البياني الخطابي) والمرشح الملخصات هي الرسوم البيانية الفرعية لها. بدلا من اختيار الجمل البارزة، حدد SGSUM رسم بياني فرعي بارز من الرسم البياني العلاقة كملخص. مقارنة بالطرق التقليدية، فإن طريقةنا لها مزايا رئيسية: (1) يتم التقاط العلاقات بين الأحكام من خلال نمذجة كل من هيكل الرسم البياني لمجموعة الوثيقة بأكملها والرسوم البيانية الفرعية المرشحة؛ (2) يخرج مباشرة ملخصا دمج في شكل رسم بياني فرعي وهو أكثر إفادة وتماسك. تظهر تجارب واسعة على مجموعات بيانات متعددة الوظائف و DUC أن أسلوبنا المقترح يجلب تحسينات كبيرة على العديد من خطوط الأساس القوية. توضح نتائج التقييم البشري أيضا أن طرازنا يمكن أن ينتج ملخصات أكثر متماسكا وكفاحيا مقارنة بطرق MDS التقليدية. علاوة على ذلك، فإن الهندسة المعمارية المقترحة لديها قدرة نقل قوية من إدخال واحد إلى متعدد الوثائق، والتي يمكن أن تقلل من عنق الزجاجة في مهام MDS.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا