إن استخلاص المعلومات هي مهمة العثور على المعلومات المنظمة من نص غير
منظم أو نص شبه منظم و هي مهمة هامة في التنقيب بالنصوص و قد تمت دراستها
على نطاق واسع في الأوساط البحثية المختلفة بما في ذلك معالجة اللغة الطبيعية،
و استرجاع المعلومات و التنقيب على شبكة الإنترنت إضافة إلى مجموعة واسعة من
التطبيقات في مجالات التنقيب في الطب الحيوي و الذكاء التجاري.
هناك مهمتين أساسيتين لاستخلاص المعلومات و هما التعرف على الكيان
و استخلاص العلاقة، المهمة الأولى تشير إلى العثور على الكيانات ذات العلاقة مثل
الأشخاص و أسماء الشركات و المواقع ، و المهمة الأخرى تشير إلى العثور على
العلاقات الدلالية بين هذه الكيانات.
Information extraction is the task of finding structured information
from unstructured or semi-structured text. It is an important task in
text mining and has been extensively studied in various research
communities including natural language processing, information
retrieval and Web mining. It has a wide range of applications in
domains such as biomedical literature mining and business
intelligence. Two fundamental tasks of information extraction are
named entity recognition and relation extraction. The former refers to
finding names of entities such as people, organizations and
locations. The latter refers to finding the semantic relations between
entities.
Artificial intelligence review:
Research summary
تتناول هذه الدراسة الاستقصائية طرق استخلاص المعلومات من النصوص غير المنظمة أو شبه المنظمة، وهي مهمة أساسية في التقيب بالنصوص ومعالجة اللغة الطبيعية. تركز الدراسة على مهمتين رئيسيتين: التعرف على الكيانات المسماة واستخلاص العلاقات الدلالية بين هذه الكيانات. يتم استخدام تقنيات متعددة مثل نماذج ماركوف المخفية والحقول العشوائية الشرطية لتحقيق هذه الأهداف. كما تستعرض الدراسة تطبيقات مختلفة لاستخلاص المعلومات في مجالات مثل الطب الحيوي والاستخبارات المالية. تعتمد منهجية البحث على الدراسات التتبعية لتتبع أحدث التقنيات والخوارزميات المستخدمة في هذا المجال. وتناقش الدراسة أيضا التحديات المرتبطة باستخلاص المعلومات غير الخاضع للإشراف واستخلاص المعلومات المفتوح من المدونات الكبيرة مثل شبكة الإنترنت.
Critical review
تعتبر هذه الدراسة شاملة ومفصلة في تناولها لموضوع استخلاص المعلومات من النصوص، إلا أنها قد تكون معقدة بعض الشيء للقارئ غير المتخصص. قد يكون من المفيد تضمين أمثلة عملية وتطبيقات واقعية لتوضيح الفوائد العملية لهذه التقنيات. بالإضافة إلى ذلك، يمكن تحسين الدراسة من خلال تقديم مقارنة بين مختلف الخوارزميات والتقنيات المستخدمة وتوضيح مزايا وعيوب كل منها. كما أن التركيز على التطبيقات العملية في مجالات أخرى غير الطب الحيوي والاستخبارات المالية قد يضيف قيمة إضافية للدراسة.
Questions related to the research
-
ما هي المهمتين الرئيسيتين في استخلاص المعلومات من النصوص؟
المهمتين الرئيسيتين هما التعرف على الكيانات المسماة واستخلاص العلاقات الدلالية بين هذه الكيانات.
-
ما هي التقنيات المستخدمة في استخلاص المعلومات من النصوص؟
التقنيات المستخدمة تشمل نماذج ماركوف المخفية والحقول العشوائية الشرطية.
-
ما هي التطبيقات العملية لاستخلاص المعلومات المذكورة في الدراسة؟
التطبيقات تشمل التقيب في الأدب الطبي الحيوي والاستخبارات المالية.
-
ما هي التحديات المرتبطة باستخلاص المعلومات غير الخاضع للإشراف؟
التحديات تشمل تحديد هياكل المعلومات المستخرجة والوثائق التوضيحية وفقا للبنى المعرفة، والتي تتطلب خبرة بشرية وتستغرق وقتا طويلا.
References used
Douglas E. Appelt, Jerry R. Hobbs, John Bear, David Israel, and Mabry Tyson. FASTUS: A finite-state processor for information extraction from realworld text. In Proceedings of the 13th International Joint Conference on Artificial Intelligence, 1993
Mary Elaine Califf and Raymond J. Mooney. Relational learning of patternmatch rules for information extraction. In Proceedings of the 16th National Conference on Artificial Intelligence and the 11th Innovative Applications of Artificial Intelligence Conference, pages 328–334, 1999
Tao Cheng, Xifeng Yan, and Kevin Chen-Chuan Chang. Supporting entity search: a large-scale prototype search engine. In Proceedings of the 2007 ACM SIGMOD International Conference on Management of Data, pages 1144–1146, 2007
relation extraction systems have made extensive use of features generated
by linguistic analysis modules. Errors in these features lead to errors of
relation detection and classification. In this work, we depart from these
traditional approaches w
We cast a suite of information extraction tasks into a text-to-triple translation framework. Instead of solving each task relying on task-specific datasets and models, we formalize the task as a translation between task-specific input text and output
Information extraction and question answering have the potential to introduce a new paradigm for how machine learning is applied to criminal law. Existing approaches generally use tabular data for predictive metrics. An alternative approach is needed
Recent information extraction approaches have relied on training deep neural models. However, such models can easily overfit noisy labels and suffer from performance degradation. While it is very costly to filter noisy labels in large learning resour
Key management in Wireless Sensor Networks (WSNs) is an important issue due to the absence
of trusted infrastructures, on one hand, and the limited resources of sensor nodes, on the other
hand. This paper surveys some recent key management approach