إن استخلاص المعلومات هي مهمة العثور على المعلومات المنظمة من نص غير
منظم أو نص شبه منظم و هي مهمة هامة في التنقيب بالنصوص و قد تمت دراستها
على نطاق واسع في الأوساط البحثية المختلفة بما في ذلك معالجة اللغة الطبيعية،
و استرجاع المعلومات و التنقيب على شبكة الإنترنت إضافة إلى مجموعة واسعة من
التطبيقات في مجالات التنقيب في الطب الحيوي و الذكاء التجاري.
هناك مهمتين أساسيتين لاستخلاص المعلومات و هما التعرف على الكيان
و استخلاص العلاقة، المهمة الأولى تشير إلى العثور على الكيانات ذات العلاقة مثل
الأشخاص و أسماء الشركات و المواقع ، و المهمة الأخرى تشير إلى العثور على
العلاقات الدلالية بين هذه الكيانات.
Information extraction is the task of finding structured information
from unstructured or semi-structured text. It is an important task in
text mining and has been extensively studied in various research
communities including natural language processing, information
retrieval and Web mining. It has a wide range of applications in
domains such as biomedical literature mining and business
intelligence. Two fundamental tasks of information extraction are
named entity recognition and relation extraction. The former refers to
finding names of entities such as people, organizations and
locations. The latter refers to finding the semantic relations between
entities.
المراجع المستخدمة
Douglas E. Appelt, Jerry R. Hobbs, John Bear, David Israel, and Mabry Tyson. FASTUS: A finite-state processor for information extraction from realworld text. In Proceedings of the 13th International Joint Conference on Artificial Intelligence, 1993
Mary Elaine Califf and Raymond J. Mooney. Relational learning of patternmatch rules for information extraction. In Proceedings of the 16th National Conference on Artificial Intelligence and the 11th Innovative Applications of Artificial Intelligence Conference, pages 328–334, 1999
Tao Cheng, Xifeng Yan, and Kevin Chen-Chuan Chang. Supporting entity search: a large-scale prototype search engine. In Proceedings of the 2007 ACM SIGMOD International Conference on Management of Data, pages 1144–1146, 2007