تصبح التلخصات متعددة الوسائط ذات أهمية متزايدة لأنها هي أساس الإجابة على السؤال والبحث على شبكة الإنترنت والعديد من المهام الأخرى المصب الأخرى.ومع ذلك، فإن موادها التعليمية تفتقر إلى منظمة شاملة من خلال دمج الموارد من الطرائق المختلفة، مما يتخلف عن التقدم المحرز البحثي في هذا المجال.في هذه الدراسة، نطلق عن مجموعة بيانات متعددة الوسائط واسعة النطاق تجمع الوثائق والملخصات والصور والتسميات التوضيحية ومقاطع الفيديو والصوتيات والمنصات واللقب باللغة الإنجليزية من CNN و Daily Mail.لدينا أفضل المعرفة لدينا، هذه هي المجموعة الأولى التي تدعم جميع الطرائق وتشمل ما يقرب من جميع أنواع المواد المتاحة في هذا المجتمع.بالإضافة إلى ذلك، نحن ابتكر نموذج خط الأساس استنادا إلى مجموعة البيانات الجديدة، والذي يستخدم آلية تقفيز تقترح حديثا على أساس النصوص.تتحقق النتائج التجريبية دور المساعدة الهامة للمعلومات الخارجية لتلخيص متعدد الوسائط.
Multimodal summarization becomes increasingly significant as it is the basis for question answering, Web search, and many other downstream tasks. However, its learning materials have been lacking a holistic organization by integrating resources from various modalities, thereby lagging behind the research progress of this field. In this study, we release a full-scale multimodal dataset comprehensively gathering documents, summaries, images, captions, videos, audios, transcripts, and titles in English from CNN and Daily Mail. To our best knowledge, this is the first collection that spans all modalities and nearly comprises all types of materials available in this community. In addition, we devise a baseline model based on the novel dataset, which employs a newly proposed Jump-Attention mechanism based on transcripts. The experimental results validate the important assistance role of the external information for multimodal summarization.
References used
https://aclanthology.org/
Abstract Aspect-based summarization is the task of generating focused summaries based on specific points of interest. Such summaries aid efficient analysis of text, such as quickly understanding reviews or opinions from different angles. However, due
This paper introduces MediaSum, a large-scale media interview dataset consisting of 463.6K transcripts with abstractive summaries. To create this dataset, we collect interview transcripts from NPR and CNN and employ the overview and topic description
Recent advances in using retrieval components over external knowledge sources have shown impressive results for a variety of downstream tasks in natural language processing. Here, we explore the use of unstructured external knowledge sources of image
This paper introduces a new video-and-language dataset with human actions for multimodal logical inference, which focuses on intentional and aspectual expressions that describe dynamic human actions. The dataset consists of 200 videos, 5,554 action l
Recent development in NLP shows a strong trend towards refining pre-trained models with a domain-specific dataset. This is especially the case for response generation where emotion plays an important role. However, existing empathetic datasets remain