تقدم هذه الورقة نهجا استخراج غير مخطئ لتلخيص المستندات الطويلة العلمية بناء على مبدأ اختناق المعلومات.مستوحاة من العمل السابق الذي يستخدم مبدأ اختناق المعلومات لضغط الجملة، فإننا نقدمها لتلخيص مستوى الوثيقة مع خطوتين منفصلين.في الخطوة الأولى، نستخدم
إشارة (إشارات) كاستعلامات لاسترداد المحتوى الرئيسي من المستند المصدر.بعد ذلك، يقوم نموذج لغة مدرب مسبقا بإجراء المزيد من الجملة والتحرير لإرجاع الملخصات المستخرجة النهائية.الأهم من ذلك، يمكن امتدت عملنا بمرونة إلى إطار متعدد المشاهدات من قبل إشارات مختلفة.التقييم التلقائي على ثلاث مجموعات بيانات وثيقة علمية تتحقق من فعالية الإطار المقترح.يشير التقييم البشري الإضافي إلى أن الملخصات المستخرجة تغطي المزيد من جوانب المحتوى أكثر من النظم السابقة.
تتفوق أنظمة تلخيص التلخيص الحالية على نظرائهم المستخرجين، لكن اعتمادهم على نطاق واسع يمنعهم الافتقار المتأصل إلى الترجمة الشفوية. أنظمة تلخيص الاستخراجية، على الرغم من أنه قابل للتفسير، تعاني من التكرار وقلة الاتساق المحتمل. لتحقيق أفضل ما في العالمي
ن، نقترح سهولة، وهو إطار خارجي - مبادرة ينشئ ملخصات إغراقية موجزة يمكن تتبعها مرة أخرى إلى ملخص مستخرج. يمكن تطبيق إطارنا على أي مشكلة توليد نصية قائمة على الأدلة ويمكن أن تستوعب النماذج المحددة مسبقا في بنية بسيطة. نستخدم مبدأ معلومات عنق المعلومات لتدريب الاستخلاص والتجريد المشترك في أزياء نهاية إلى نهاية. مستوحاة من البحث السابق الذي يستخدمه البشر إطارا من مرحلتين لتلخيص المستندات الطويلة (Jing و McKeown، 2000)، فإن إطار عملائنا أولا يستخرج كمية محددة مسبقا من الأدلة التي تمتد ثم يولد ملخصا باستخدام الأدلة فقط. باستخدام التقييمات التلقائية والبشرية، نوضح أن الملخصات التي تم إنشاؤها أفضل من خطوط الأساسيات الاستخراجية والاستخراجية الدخرية.