دراسة استكشافية حول تلخيص الحوار الطويلة: ما الذي يعمل وما هو التالي


الملخص بالعربية

يلخص الحوار يساعد القراء على التقاط المعلومات البارزة من محادثات طويلة في الاجتماعات والمقابلات والمسلسلات التلفزيونية. ومع ذلك، فإن حوالات العالم الحقيقي تشكل تحديا كبيرا لنماذج التلخيص الحالية، حيث يتجاوز طول الحوار عادة حدود المدخلات التي تفرضها النماذج المدربة مسبقا القائمة على المحولات، والطبيعة التفاعلية للحوالات هي المعلومات ذات الصلة أكثر تعتمد على السياق وقدر موزعة من المقالات الإخبارية. في هذا العمل، نقوم بإجراء دراسة شاملة حول تلخيص الحوار الطويل من خلال التحقيق في ثلاث استراتيجيات للتعامل مع مشكلة الإدخال المطول وتحديد موقع المعلومات ذات الصلة: (1) نماذج المحولات الموسعة مثل Longformer، (2) استرداد نماذج خط أنابيب العديد من طرق استرجاع الحوار النطق، و (3) نماذج ترميز الحوار الهرمي مثل HMNet. نتائجنا التجريبية على ثلاث مجموعات بيانات حوار طويلة (QMSUM، MediaSum، Searscreen) تبين أن نماذج خط أنابيب الاسترداد - بعد ذلك، تسفر عن أفضل أداء. نوضح أيضا أنه يمكن تحسين جودة الملخص مع نموذج استرجاع أقوى وأحيث محاكاة بيانات الملخصات الخارجية المناسبة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث