كان الحمل الزائد المعلومات أحد التحديات المتعلقة بالمعلومات من الإنترنت. إنها ليست مسألة وصول المعلومات، بدلا من ذلك، تحول التركيز نحو جودة البيانات المستردة. لا سيما في مجال الأخبار، تقرير منافذ متعددة عن أحداث الأخبار نفسها ولكن قد يختلف في التفاصيل. يعتبر هذا العمل أن منافذ أخبار مختلفة من المرجح أن تختلف في أساليب الكتابة واختيار الكلمات، وتقترح طريقة لاستخراج الجمل بناء على معلوماتها الرئيسية من خلال التركيز على المرادفات المشتركة في كل جملة. تحاول طريقتنا أيضا تقليل التكرار من خلال التجميع الهرمي وترتيب جمل مختارة على TransBert المقترحة. تشير النتائج إلى أن الإطار المقترح غير المعدل بنجاح يحسن التغطية والتماسك، وفي الوقت نفسه، يقلل من التكرار للحصول على ملخص تم إنشاؤه. علاوة على ذلك، نظرا لعملية الحصول على DataSet، نقترح أيضا طريقة تحسين البيانات لتخفيف مشاكل النصوص غير المرغوب فيها، والتي تنجم عن عملية تجريف تلقائي.
Information overload has been one of the challenges regarding information from the Internet. It is not a matter of information access, instead, the focus had shifted towards the quality of the retrieved data. Particularly in the news domain, multiple outlets report on the same news events but may differ in details. This work considers that different news outlets are more likely to differ in their writing styles and the choice of words, and proposes a method to extract sentences based on their key information by focusing on the shared synonyms in each sentence. Our method also attempts to reduce redundancy through hierarchical clustering and arrange selected sentences on the proposed orderBERT. The results show that the proposed unsupervised framework successfully improves the coverage, coherence, and, meanwhile, reduces the redundancy for a generated summary. Moreover, due to the process of obtaining the dataset, we also propose a data refinement method to alleviate the problems of undesirable texts, which result from the process of automatic scraping.
References used
https://aclanthology.org/
Allowing users to interact with multi-document summarizers is a promising direction towards improving and customizing summary results. Different ideas for interactive summarization have been proposed in previous work but these solutions are highly di
This paper describes our submission for the LongSumm task in SDP 2021. We propose a method for incorporating sentence embeddings produced by deep language models into extractive summarization techniques based on graph centrality in an unsupervised ma
We present a method for generating comparative summaries that highlight similarities and contradictions in input documents. The key challenge in creating such summaries is the lack of large parallel training data required for training typical summari
A crucial difference between single- and multi-document summarization is how salient content manifests itself in the document(s). While such content may appear at the beginning of a single document, essential information is frequently reiterated in a
Most of existing extractive multi-document summarization (MDS) methods score each sentence individually and extract salient sentences one by one to compose a summary, which have two main drawbacks: (1) neglecting both the intra and cross-document rel