أصبح استخراج المعلومات من المستندات استخداما رائعا لمناطق معالجة اللغة الطبيعية الجديدة. معظم منهجيات استخراج الكيانات متغير في سياق مثل المنطقة الطبية، المنطقة المالية، كما تقتصر على اللغة المحددة. من الأفضل أن يكون لديك نهج عام واحد ينطبق على أي نوع مستند لاستخراج معلومات الكيان بغض النظر عن اللغة والسياق والهيكل. أيضا، هناك مشكلة أخرى في هذا البحث تحليل هيكلي مع الحفاظ على ميزات التسلسل الهرمي والدلي والمثير. مشكلة أخرى تم تحديدها هي أنه عادة، فإنه يتطلب كوربا تدريب ضخما. لذلك، يركز هذا البحث على التخفيف من هذه الحواجز. تم تحديد العديد من النهج نحو بناء مستخرجات معلومات المستندات التي تركز على تخصصات مختلفة. تتضمن منطقة البحث هذه معالجة اللغة الطبيعية والتحليل الدلالي واستخراج المعلومات والنمذجة المفاهيمية. تقدم هذه الورقة مراجعة لآلية استخراج المعلومات لبناء إطار عام لاستخراج المستندات بهدف توفير قاعدة صلبة للبحث القادم.
Information extraction from documents has become great use of novel natural language processing areas. Most of the entity extraction methodologies are variant in a context such as medical area, financial area, also come even limited to the given language. It is better to have one generic approach applicable for any document type to extract entity information regardless of language, context, and structure. Also, another issue in such research is structural analysis while keeping the hierarchical, semantic, and heuristic features. Another problem identified is that usually, it requires a massive training corpus. Therefore, this research focus on mitigating such barriers. Several approaches have been identifying towards building document information extractors focusing on different disciplines. This research area involves natural language processing, semantic analysis, information extraction, and conceptual modelling. This paper presents a review of the information extraction mechanism to construct a generic framework for document extraction with aim of providing a solid base for upcoming research.
References used
https://aclanthology.org/
Document-level relation extraction is a challenging task, requiring reasoning over multiple sentences to predict a set of relations in a document. In this paper, we propose a novel framework E2GRE (Entity and Evidence Guided Relation Extraction) that
Unsupervised relation extraction works by clustering entity pairs that have the same relations in the text. Some existing variational autoencoder (VAE)-based approaches train the relation extraction model as an encoder that generates relation classif
Fully understanding narratives often requires identifying events in the context of whole documents and modeling the event relations. However, document-level event extraction is a challenging task as it requires the extraction of event and entity core
A real-world information extraction (IE) system for semi-structured document images often involves a long pipeline of multiple modules, whose complexity dramatically increases its development and maintenance cost. One can instead consider an end-to-e
This paper presents an unsupervised extractive approach to summarize scientific long documents based on the Information Bottleneck principle. Inspired by previous work which uses the Information Bottleneck principle for sentence compression, we exten