ترغب بنشر مسار تعليمي؟ اضغط هنا

استفادة معلومات عنق الزجاجة لتلخيص الوثيقة العلمية

Leveraging Information Bottleneck for Scientific Document Summarization

671   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة نهجا استخراج غير مخطئ لتلخيص المستندات الطويلة العلمية بناء على مبدأ اختناق المعلومات.مستوحاة من العمل السابق الذي يستخدم مبدأ اختناق المعلومات لضغط الجملة، فإننا نقدمها لتلخيص مستوى الوثيقة مع خطوتين منفصلين.في الخطوة الأولى، نستخدم إشارة (إشارات) كاستعلامات لاسترداد المحتوى الرئيسي من المستند المصدر.بعد ذلك، يقوم نموذج لغة مدرب مسبقا بإجراء المزيد من الجملة والتحرير لإرجاع الملخصات المستخرجة النهائية.الأهم من ذلك، يمكن امتدت عملنا بمرونة إلى إطار متعدد المشاهدات من قبل إشارات مختلفة.التقييم التلقائي على ثلاث مجموعات بيانات وثيقة علمية تتحقق من فعالية الإطار المقترح.يشير التقييم البشري الإضافي إلى أن الملخصات المستخرجة تغطي المزيد من جوانب المحتوى أكثر من النظم السابقة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

حقق تمثيلات تشفير ثنائية الاتجاه من المحولات (بيرت) عروضا حديثة على العديد من مهام تصنيف النص، مثل تحليل الغراء والمعنويات. بدأ العمل الأخير في المجال القانوني في استخدام بيرت في المهام، مثل التنبؤ بالحكم القانوني والتنبؤ بالانتهاك. تتمثل الممارسات ا لشائعة في استخدام Bert في ضبط نموذج مدرب مسبقا على مهمة مستهدفة واقتطع نصات الإدخال بحجم إدخال BERT (E.G. في معظم الرموز 512). ومع ذلك، نظرا للخصائص الفريدة للمستندات القانونية، فليس من الواضح كيفية التكيف بفعالية بيرت في المجال القانوني. في هذا العمل، نحقق في كيفية التعامل مع المستندات الطويلة، وكيفية أهمية التدريب المسبق على المستندات من نفس المجال باعتباره المهمة المستهدفة. نحن نقوم بإجراء تجارب على مجموعات البيانات الأخيرة: DataSet DataSet ECHR ومجموعة بيانات المهام الناجحة، وهي مهام التصنيف متعددة الملصقات والتصنيف الثنائي، على التوالي. الأهم من ذلك، في المتوسط ​​عدد الرموز في وثيقة من مجموعة بيانات انتهاك EURR أكثر من 1600. في حين أن المستندات الموجودة في مجموعة بيانات المهام الأساسية أقصر (الحد الأقصى لعدد الرموز 204). قارننا بدقة العديد من التقنيات لتكييف بيرت على وثائق طويلة ومقارنة النماذج المختلفة المدربة مسبقا على المجالات القانونية وغيرها. تظهر نتائجنا التجريبية أننا نحتاج إلى التكيف بشكل صريح بتكييف بيرت للتعامل مع المستندات الطويلة، حيث يؤدي اقتطاع إلى أداء أقل فعالية. وجدنا أيضا أن التدريب المسبق على المستندات التي تشبه المهمة المستهدفة ستؤدي إلى أداء أكثر فعالية في العديد من السيناريو.
تعرض تعقيدات الحسابية والذاكرة التربيعية للمحولات الكبيرة محدودة قابلية توسعها لتلخيص وثيقة طويلة.في هذه الورقة، نقترح هيبوس، وهو اهتمام مفكف مفكف من التشفير مع خطوات وضعية من الدرجة الأولى بفعالية المعلومات البارزة من المصدر.ونحن كذلك إجراء دراسة من هجية للانتباه الذاتية الفعالة الحالية.جنبا إلى جنب مع HEPOS، نحن قادرون على معالجة المزيد من الرموز عشرة أضعاف من النماذج الحالية التي تستخدم الاهتزازات الكاملة.للتقييم، نقدم مجموعة بيانات جديدة، الحكومة، مع وثائق وملخصات أطول بكثير.تشير النتائج إلى أن نماذجنا تنتج درجات Rouge أعلى بكثير من المقارنات التنافسية، بما في ذلك النتائج الجديدة من أحدث النتائج على PubMed.يوضح التقييم البشري أيضا أن نماذجنا تولد ملخصات أكثر إعلانية مع أخطاء أقل غير مانعة.
هناك فرق حاسم بين تلخيص المستندات الفردية والمتعددة هو كيف يتجلى المحتوى البارز نفسه في المستند (المستندات). على الرغم من أن هذا المحتوى قد يظهر في بداية وثيقة واحدة، إلا أن المعلومات الأساسية تكرر بشكل متكرر في مجموعة من المستندات المتعلقة بموضوع مع ين، مما يؤدي إلى تأثير تأييد يزيد من حية معلومات المعلومات. في هذه الورقة، نقوم بالنماذج تأثير تأييد المستندات عبر المستندات واستخدامها في تلخيص مستندات متعددة. تقوم طريقتنا بإنشاء ملخص من كل مستند، والتي تعمل كموثوقية لتحديد المحتوى البارز من مستندات أخرى. يتم استخدام قطاعات نصية تم تأييدها بشدة لإثراء نموذج فك التشفير العصبي لتعزيزها في ملخص مبيعات. تتمتع هذه الطريقة بإمكانيات كبيرة للتعلم من أمثلة أقل لتحديد المحتوى البارزين، مما يخفف من الحاجة إلى إعادة تدريب مكلفة عند تعديل مجموعة المستندات بشكل حيوي. من خلال تجارب واسعة النطاق حول مجموعات بيانات تلخيص المستندات متعددة الوثائق القياسية، نوضح فعالية أسلوبنا المقترح على خطوط خطوط أساسية منشورة قوية. أخيرا، ألقينا الضوء على اتجاهات البحث في المستقبل ومناقشة تحديات أوسع من هذه المهمة باستخدام دراسة حالة.
تقترح هذه الورقة نموذجا جديدا لتلخيص وثائق الجماعي، بارت هرمي (HIE-BART)، والذي يلتقط الهياكل الهرمية للمستند (I.E.، هياكل الجملة) في نموذج بارت.على الرغم من أن نموذج بارت الحالي قد حقق أداء أحدث في مهام تلخيص المستندات، إلا أن النموذج ليس لديه التفا علات بين المعلومات على مستوى الجملة ومعلومات على مستوى الكلمات.في مهام الترجمة الآلية، تم تحسين أداء نماذج الترجمة الآلية العصبية من خلال دمج اهتمام الذات المتعدد الحبيبية (MG-SA)، والذي يلتقط العلاقات بين الكلمات والعبارات.مستوحاة من العمل السابق، يشتمل نموذج HIE-BART المقترح على MG-SA في تشفير نموذج BART لالتقاط هياكل الجملة.تظهر التقييمات المتعلقة بطبقة بيانات CNN / Daily Mail أن نموذج HIE-BARD المقترح يفوق بعض خطوط الأساس القوية وتحسين أداء نموذج بارت غير هرمي (+0.23 Rouge-L).
مع الزيادة في عدد الأوراق الأكاديمية المنشورة، تم وضع توقعات متزايدة على البحوث المتعلقة بدعم عملية الكتابة للأوراق العلمية. في الآونة الأخيرة، تم إجراء البحوث على مهام مختلفة مثل جدارة الاقتباس (الحكم على ما إذا كانت الجملة تتطلب الاقتباس) توصية الا قتباس وتوليد نص الاستشهاد. ومع ذلك، نظرا لأن كل مهمة تمت دراستها وتقييمها باستخدام البيانات التي تم تطويرها بشكل مستقل، فمن المستحيل حاليا التحقق مما إذا كانت هذه المهام يمكن أن تقطع أنابيبها بنجاح للاستخدام الفعال في كتابة المستندات العلمية. في هذه الورقة، نحدد أولا سلسلة من المهام المتعلقة بكتابة المستندات العلمية التي يمكن أن تكون خطاء. بعد ذلك، نقوم بإنشاء مجموعة بيانات من الأوراق الأكاديمية التي يمكن استخدامها لتقييم كل مهمة بالإضافة إلى سلسلة من هذه المهام. أخيرا، باستخدام DataSet، نقيم مهام جدارة الاقتباس وتوصية الاقتباس وكذلك كلتا المهام المتكاملة. توضح نتائج تقييماتنا أن النهج المقترح واعد.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا