تهدف التلخيص التلقائي إلى استخراج معلومات مهمة من كميات كبيرة من البيانات النصية من أجل إنشاء إصدار أقصر من النصوص الأصلية مع الحفاظ على معلوماتها. تعتمد تدريب نماذج تلخيص الاستخراجية التقليدية بشكل كبير على الملصقات المهندسة البشرية مثل التعليقات التوضيحية على مستوى الجملة للجدارة القصيرة. ومع ذلك، في العديد من حالات الاستخدام، فإن هذه الملصقات المهندسة البشرية غير موجودة وتشريح يدويا الآلاف من المستندات لغرض نماذج التدريب قد لا تكون ممكنة. من ناحية أخرى، غالبا ما تكون إشارات غير مباشرة للتلخيص متاحة، مثل إجراءات الوكيل لحوارات خدمة العملاء، العناوين الرئيسية للمقالات الإخبارية، التشخيص للسجلات الصحية الإلكترونية، إلخ. في هذه الورقة، نقوم بتطوير إطار عام يولد تلخيصا استخراجا نتيجة ثانوية من مهام التعلم الإشراف للإشارات غير المباشرة عبر مساعدة آلية الاهتمام. نختبر نماذجنا على حوارات خدمة العملاء ونتائج التجريبية أظهرت أن نماذجنا يمكن أن تختار بشكل موثوق الجمل والكلمات الإعلامية للتلخيص التلقائي.
Automatic summarization aims to extract important information from large amounts of textual data in order to create a shorter version of the original texts while preserving its information. Training traditional extractive summarization models relies heavily on human-engineered labels such as sentence-level annotations of summary-worthiness. However, in many use cases, such human-engineered labels do not exist and manually annotating thousands of documents for the purpose of training models may not be feasible. On the other hand, indirect signals for summarization are often available, such as agent actions for customer service dialogues, headlines for news articles, diagnosis for Electronic Health Records, etc. In this paper, we develop a general framework that generates extractive summarization as a byproduct of supervised learning tasks for indirect signals via the help of attention mechanism. We test our models on customer service dialogues and experimental results demonstrated that our models can reliably select informative sentences and words for automatic summarization.
المراجع المستخدمة
https://aclanthology.org/
يؤدي استخراج الموجات القصيرة تلقائيا من المستندات العلمية إلى تمثيل موجز قيم يمكن أن يفهم البشر ويمكنهم معالجة الآلات للمهام، مثل استرجاع المعلومات، تجميع المقالات وتصنيف المادة.تهتم هذه الورقة بأجزاء مقالة علمية يجب أن تعطى كمدخلات لطرق استخراج الحر
يهدف تصنيف النص الخاضع للإشراف ضعيف إلى حثص نصوص النص من عدد قليل من كلمات البذور التي توفرها المستخدم. غالبية العمل العظمى من العمل السابق يفترض أن كلمات البذور عالية الجودة تعطى. ومع ذلك، فإن كلمات البذور المشروح للخبراء في بعض الأحيان غير تافهة لل
تعاني نماذج تلخيص مقرها العصبي من الحد الأقصى للتوافق في تشفير النص.يجب اقتطاع المستندات الطويلة قبل إرسالها إلى النموذج، مما يؤدي إلى فقدان هائل للمحتويات الملخص ذات الصلة.لمعالجة هذه المشكلة، نقترح شبكة المحدد المنزلق بالذاكرة الديناميكية لعلمة الا
لالتقاط بنية الرسم البياني الدلالي من النص الخام، يتم بناء معظم طرق التلخيص الموجودة على GNNS مع نموذج مدرب مسبقا.ومع ذلك، فإن هذه الأساليب تعاني من إجراءات مرهقة وحسابات غير فعالة وثائق نصية طويلة.لتخفيف هذه المشكلات، تقترح هذه الورقة HETFORMER، وهو
يعد إعادة صياغة نص إعادة صياغة مهمة NLP طويلة الأمد لديها تطبيقات متنوعة على مهام NLP المصب. ومع ذلك، تعتمد فعالية الجهود الحالية في الغالب على كميات كبيرة من البيانات الذهبية المسمى. على الرغم من أن المساعي غير الخاضعة للإشعال قد اقترحت تخفيف هذه ال