ترغب بنشر مسار تعليمي؟ اضغط هنا

تلخيص المستندات غير المنشأة باستخدام تضيير الجملة المدربة مسبقا والمركزية الرسم البياني

Unsupervised document summarization using pre-trained sentence embeddings and graph centrality

266   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة تقديمها لمهمة LongsUMM في SDP 2021. نقترح طريقة لإدماج مظاهرة الجملة التي تنتجها نماذج لغة عميقة في تقنيات تلخيص الاستخراج بناء على مركزية الرسم البياني بطريقة غير منشأة. الطريقة المقترحة بسيطة، سريعة، يمكن أن تلخيص أينوع من وثيقة أي حجم ويمكن أن تلبي أي قيود طول الملخصات المنتجة.توفر الطريقة أداء تنافسي أساليب أكثر تطورا أكثر تطورا ويمكن أن تكون بمثابة وكيل لتقنيات تلخيص الجماع



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

معظم أساليب تلخيص المستندات النسخة الاستخراجية الحالية (MDS) تسجل كل جملة بشكل فردي واستخراج الجمل الباردة واحدا تلو الآخر لتكوين ملخص، ولديه عاطفي رئيسيين: (1) إهمال العلاقات داخل الوثائق بين الجمل؛ (2) إهمال التماسك وجواء الملخص بأكمله. في هذه الور قة، نقترح إطار عمل MDS الرواية (SGSUM) لصياغة مهمة MDS كأداة اختيار Sub-Graph، حيث تعتبر المستندات المصدر بيانيا العلاقة من الجمل (على سبيل المثال، الرسم البياني التشابه أو الرسم البياني الخطابي) والمرشح الملخصات هي الرسوم البيانية الفرعية لها. بدلا من اختيار الجمل البارزة، حدد SGSUM رسم بياني فرعي بارز من الرسم البياني العلاقة كملخص. مقارنة بالطرق التقليدية، فإن طريقةنا لها مزايا رئيسية: (1) يتم التقاط العلاقات بين الأحكام من خلال نمذجة كل من هيكل الرسم البياني لمجموعة الوثيقة بأكملها والرسوم البيانية الفرعية المرشحة؛ (2) يخرج مباشرة ملخصا دمج في شكل رسم بياني فرعي وهو أكثر إفادة وتماسك. تظهر تجارب واسعة على مجموعات بيانات متعددة الوظائف و DUC أن أسلوبنا المقترح يجلب تحسينات كبيرة على العديد من خطوط الأساس القوية. توضح نتائج التقييم البشري أيضا أن طرازنا يمكن أن ينتج ملخصات أكثر متماسكا وكفاحيا مقارنة بطرق MDS التقليدية. علاوة على ذلك، فإن الهندسة المعمارية المقترحة لديها قدرة نقل قوية من إدخال واحد إلى متعدد الوثائق، والتي يمكن أن تقلل من عنق الزجاجة في مهام MDS.
كان الحمل الزائد المعلومات أحد التحديات المتعلقة بالمعلومات من الإنترنت. إنها ليست مسألة وصول المعلومات، بدلا من ذلك، تحول التركيز نحو جودة البيانات المستردة. لا سيما في مجال الأخبار، تقرير منافذ متعددة عن أحداث الأخبار نفسها ولكن قد يختلف في التفاصي ل. يعتبر هذا العمل أن منافذ أخبار مختلفة من المرجح أن تختلف في أساليب الكتابة واختيار الكلمات، وتقترح طريقة لاستخراج الجمل بناء على معلوماتها الرئيسية من خلال التركيز على المرادفات المشتركة في كل جملة. تحاول طريقتنا أيضا تقليل التكرار من خلال التجميع الهرمي وترتيب جمل مختارة على TransBert المقترحة. تشير النتائج إلى أن الإطار المقترح غير المعدل بنجاح يحسن التغطية والتماسك، وفي الوقت نفسه، يقلل من التكرار للحصول على ملخص تم إنشاؤه. علاوة على ذلك، نظرا لعملية الحصول على DataSet، نقترح أيضا طريقة تحسين البيانات لتخفيف مشاكل النصوص غير المرغوب فيها، والتي تنجم عن عملية تجريف تلقائي.
حققت نماذج اللغة المدربة مسبقا نجاحا كبيرا على مجموعة واسعة من مهام NLP. ومع ذلك، فإن التمثيلات السياقية من النماذج المدربة مسبقا تحتوي على معلومات دلالية ومتنامية متشابكة، وبالتالي لا يمكن استخدامها مباشرة لاستخلاص مدينات جملة دلالية مفيدة لبعض المه ام. تقدم أزواج إعادة صياغة طريقة فعالة لتعلم التمييز بين الدلالات وبناء الجملة، حيث أنهم يشاركون بشكل طبيعي دلالات وغالبا ما يختلف في بناء جملة. في هذا العمل، نقدم Parabart، وهي جملة دلالية تضمين نموذج يتعلم تكديح دلالات ودليل بناء الجملة في مذكرات الجملة التي تم الحصول عليها بواسطة نماذج اللغة المدربة مسبقا. يتم تدريب PARABART على إجراء إعادة صياغة موجهة إلى بناء الجملة، استنادا إلى جملة مصدر تشترك في الدلالات مع إعادة صياغة الهدف، وشجرة تحليل تحدد بناء الجملة المستهدف. وبهذه الطريقة، يتعلم بارابارت تعليم التمثيل الدلالي والمنظمات النحوية من مدخلاتها مع تشفير منفصلة. تبين التجارب باللغة الإنجليزية أن بارابارت تتفوق على الأحكام التي تضم نماذج تضمينها على مهام التشابه الدلالي غير المعدل. بالإضافة إلى ذلك، نظير على أن نهجنا يمكن أن يؤدي إلى إزالة المعلومات النحوية بشكل فعال من تضمين الجملة الدلالية، مما يؤدي إلى متانة أفضل ضد الاختلاف النحوي على المهام الدلالية المصب.
الحكم من الانصهار هي مهمة توليد مشروطة تدمج العديد من الجمل ذات الصلة في واحدة متماسكة، والتي يمكن اعتبارها عقوبة ملخص. منذ فترة طويلة تم الاعتراف بأهمية الانصهار منذ فترة طويلة من قبل المجتمعات في توليد اللغة الطبيعية، وخاصة في تلخيص النص. لا يزال ي مثل تحديا لنموذج لخصي مخبئي عصبي لإنشاء عقوبة ملخص متكاملة جيدا. في هذه الورقة، نستكشف طريقة انصهار الجملة الفعالة في سياق تلخيص النص. نقترح إنشاء رسم بياني حدث من جمل المدخلات لالتقاط الأحداث ذات الصلة بفعالية وتنظيمها بطريقة منظمة واستخدام الرسم البياني الحدث الذي تم إنشاؤه لتوجيه الانصهار الجملة. بالإضافة إلى الاستفادة من الاهتمام على محتوى الجمل والعقد الرسم البياني، فإننا نضع كذلك آلية انتباه تدفق الرسوم البيانية للتحكم في عملية الانصهار عبر بنية الرسم البياني. عند تقييم بيانات خلطة الجملة التي تم بناؤها من مجموعة بيانات ملخصة، CNN / DALIYMAIL ومتعدد الأخبار، يظهر طرازنا لتحقيق أدائه الحديث من حيث الحزام وغيرها من المقاييس مثل معدل الانصهار والإخلاص.
تلخيص استخراج الجملة تقصر وثيقة عن طريق اختيار الجمل للحصول على ملخص مع الحفاظ على محتوياتها المهمة.ومع ذلك، فإن إنشاء ملخص متماسك وغني مفيد صلب باستخدام ترميز مدرب مسبقا مدربا مسبقا لأنه لا يتم تدريبه صراحة على تمثيل معلومات الجمل في وثيقة.نقترح نمو ذج تلخيص الاستخراج المستخرج في الأشجار المتداخلة على روبرتا (Neroberta)، حيث تتكون هياكل الأشجار المتداخلة من أشجار النحوية والخطاب في وثيقة معينة.النتائج التجريبية على Dataset CNN / DailyMail أظهرت أن Neroberta تتفوق النماذج الأساسية في Rouge.كما أظهرت نتائج التقييم البشري أن Neroberta تحقق نتائج أفضل بكثير من خطوط الأساس من حيث الاتساق وتصل إلى درجات قابلة للمقارنة إلى النماذج التي من بين الفنون.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا