ترغب بنشر مسار تعليمي؟ اضغط هنا

دراسة استقصائية لطرق استخلاص المعلومات من نص

A SURVEY STUDY ON INFORMATION EXTRACTION FROM TEXT

1681   0   130   0 ( 0 )
 تاريخ النشر 2017
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إن استخلاص المعلومات هي مهمة العثور على المعلومات المنظمة من نص غير منظم أو نص شبه منظم و هي مهمة هامة في التنقيب بالنصوص و قد تمت دراستها على نطاق واسع في الأوساط البحثية المختلفة بما في ذلك معالجة اللغة الطبيعية، و استرجاع المعلومات و التنقيب على شبكة الإنترنت إضافة إلى مجموعة واسعة من التطبيقات في مجالات التنقيب في الطب الحيوي و الذكاء التجاري. هناك مهمتين أساسيتين لاستخلاص المعلومات و هما التعرف على الكيان و استخلاص العلاقة، المهمة الأولى تشير إلى العثور على الكيانات ذات العلاقة مثل الأشخاص و أسماء الشركات و المواقع ، و المهمة الأخرى تشير إلى العثور على العلاقات الدلالية بين هذه الكيانات.


ملخص البحث
تتناول هذه الدراسة الاستقصائية طرق استخلاص المعلومات من النصوص غير المنظمة أو شبه المنظمة، وهي مهمة أساسية في التقيب بالنصوص ومعالجة اللغة الطبيعية. تركز الدراسة على مهمتين رئيسيتين: التعرف على الكيانات المسماة واستخلاص العلاقات الدلالية بين هذه الكيانات. يتم استخدام تقنيات متعددة مثل نماذج ماركوف المخفية والحقول العشوائية الشرطية لتحقيق هذه الأهداف. كما تستعرض الدراسة تطبيقات مختلفة لاستخلاص المعلومات في مجالات مثل الطب الحيوي والاستخبارات المالية. تعتمد منهجية البحث على الدراسات التتبعية لتتبع أحدث التقنيات والخوارزميات المستخدمة في هذا المجال. وتناقش الدراسة أيضا التحديات المرتبطة باستخلاص المعلومات غير الخاضع للإشراف واستخلاص المعلومات المفتوح من المدونات الكبيرة مثل شبكة الإنترنت.
قراءة نقدية
تعتبر هذه الدراسة شاملة ومفصلة في تناولها لموضوع استخلاص المعلومات من النصوص، إلا أنها قد تكون معقدة بعض الشيء للقارئ غير المتخصص. قد يكون من المفيد تضمين أمثلة عملية وتطبيقات واقعية لتوضيح الفوائد العملية لهذه التقنيات. بالإضافة إلى ذلك، يمكن تحسين الدراسة من خلال تقديم مقارنة بين مختلف الخوارزميات والتقنيات المستخدمة وتوضيح مزايا وعيوب كل منها. كما أن التركيز على التطبيقات العملية في مجالات أخرى غير الطب الحيوي والاستخبارات المالية قد يضيف قيمة إضافية للدراسة.
أسئلة حول البحث
  1. ما هي المهمتين الرئيسيتين في استخلاص المعلومات من النصوص؟

    المهمتين الرئيسيتين هما التعرف على الكيانات المسماة واستخلاص العلاقات الدلالية بين هذه الكيانات.

  2. ما هي التقنيات المستخدمة في استخلاص المعلومات من النصوص؟

    التقنيات المستخدمة تشمل نماذج ماركوف المخفية والحقول العشوائية الشرطية.

  3. ما هي التطبيقات العملية لاستخلاص المعلومات المذكورة في الدراسة؟

    التطبيقات تشمل التقيب في الأدب الطبي الحيوي والاستخبارات المالية.

  4. ما هي التحديات المرتبطة باستخلاص المعلومات غير الخاضع للإشراف؟

    التحديات تشمل تحديد هياكل المعلومات المستخرجة والوثائق التوضيحية وفقا للبنى المعرفة، والتي تتطلب خبرة بشرية وتستغرق وقتا طويلا.


المراجع المستخدمة
Douglas E. Appelt, Jerry R. Hobbs, John Bear, David Israel, and Mabry Tyson. FASTUS: A finite-state processor for information extraction from realworld text. In Proceedings of the 13th International Joint Conference on Artificial Intelligence, 1993
Mary Elaine Califf and Raymond J. Mooney. Relational learning of patternmatch rules for information extraction. In Proceedings of the 16th National Conference on Artificial Intelligence and the 11th Innovative Applications of Artificial Intelligence Conference, pages 328–334, 1999
Tao Cheng, Xifeng Yan, and Kevin Chen-Chuan Chang. Supporting entity search: a large-scale prototype search engine. In Proceedings of the 2007 ACM SIGMOD International Conference on Management of Data, pages 1144–1146, 2007
قيم البحث

اقرأ أيضاً

استخدمت نظم استخلاص العلاقة استخداماً واسعاً للميزات المولدة من وحدات التحليل اللغوي. إذ تؤدي الأخطاء في هذه المميزات إلى أخطاء في كشف العلاقة و تصنيفها. في هذا البحث، نخرج من هذه الطرق التقليدية مع بنية مميز معقدة من خلال تقديم الشبكات العصبونية الالتفافية لاستخلاص العلاقة التي تتعلم تلقائيا ميزات من الجمل و تقلل من الاعتماد على مجموعة الأدوات و المصادر الخارجية. نموذجنا يأخذ مزايا أحجام لنوافذ متعددة للمرشحات و تضمينات الكلمة المدربة سابقا كدخل لبنية غير ثابتة لتحسين الأداء.
نقوم بإلقاء مجموعة من مهام استخراج المعلومات في إطار ترجمة نصية إلى ثلاثية. بدلا من حل كل مهمة تعتمد على مجموعات البيانات والنماذج الخاصة بالمهام، نقوم بإضفاء الطابع الرسمي على المهمة كترجمة بين نص الإدخال الخاص بمهارات المهام وتصل إلى ثلاث مرات. من خلال اتخاذ المدخلات الخاصة بالمهامة، فإننا تمكن الترجمة المرجعية على المهام من خلال الاستفادة من المعرفة الكامنة التي يحتوي عليها نموذج لغة مدرب مسبقا حول المهمة. نوضح كذلك أن مهمة ما قبل التدريب البسيطة المتمثلة في التنبؤ بالمعلومات العلاجية التي تتوافق مع نص الإدخال هو وسيلة فعالة لإنتاج مخرجات خاصة بالمهام. وهذا يتيح نقل الطلقة الصفرية لإطارنا إلى مهام المصب. ندرس أداء الطلقة الصفرية لهذا الإطار في استخراج المعلومات المفتوح (OIE2016، NYT، WEB، PENN)، تصنيف العلاقة (عدد قليل من الألوان والمستقبلية)، والتحقيق الواقعي (Google-Re و T-Rex). التحويلات النموذجية غير تيهية لمعظم المهام وغالبا ما تكون تنافسية مع طريقة تحت إشراف بالكامل دون الحاجة إلى أي تدريب خاص بمهام. على سبيل المثال، نتفوق بشكل كبير على درجة F1 من استخراج المعلومات المفتوح الخاضعة للإشراف دون الحاجة لاستخدام مجموعة التدريب الخاصة بها.
استخراج المعلومات والمسألة الإجابة على إمكانية إدخال نموذج جديد لكيفية تطبيق تعلم الجهاز على القانون الجنائي. الأساليب الحالية تستخدم عموما البيانات الجدولية للمقاييس التنبؤية. هناك حاجة إلى نهج بديل لمسائل العدالة العادلة، حيث يتم الحكم على الأفراد على أساس كل حالة على حدة، في عملية تنطوي على مناقشة شفهية أو مكتوبة عوامل الحالات. هذه المناقشات فردية، لكنها تعتمد على الحقائق الأساسية. استخراج المعلومات يمكن أن يلعب دورا مهما في تصفح هذه الحقائق، والتي لا تزال مهمة لفهمها. نقوم بتحليل قدرة النماذج غير الخاضعة للإشراف وإشرافها مسبقا على استخراج هذه المعلومات الواقعية من حوار النماذج الحر لسجناء كاليفورنيا الإفراج المشروط. مع استثناءات قليلة، فإن معظم درجات F1 أقل من 0.85. نحن نستخدم هذه الفرصة لتسليط الضوء على بعض الفرص لمزيد من البحث لاستخراج المعلومات والرد على الأسئلة. نحن نشجع التطورات الجديدة في NLP لتمكين التحليل ومراجعة القضايا القانونية التي يتعين القيام بها بطريقة ما بعد الهوك، وليس التنبؤ بها.
اعتمدت نهج استخراج المعلومات الحديثة على تدريب النماذج العصبية العميقة. ومع ذلك، يمكن أن تتجاوز هذه النماذج بسهولة الملصقات الصاخبة وتعاني من تدهور الأداء. في حين أنه من المكلف للغاية تصفية الملصقات الصاخبة في موارد تعليمية كبيرة، فإن الدراسات الحديث ة تظهر أن مثل هذه الملصقات تتخذ المزيد من الخطوات التدريبية التي سيتم حفظها وتكون نسيانها بشكل أكثر تواترا من الملصقات النظيفة، وبالتالي يتم تحديدها في التدريب. بدافع من هذه الخصائص، نقترح إطارا بسيطا بانتظام بسيطة لاستخراج المعلومات التركز على الكيان، والذي يتكون من العديد من النماذج العصبية مع هياكل متطابقة ولكن تهيئة معلمة مختلفة. يتم تحسين هذه النماذج بشكل مشترك مع الخسائر الخاصة بالمهمة ويتم تنظيمها لتوليد تنبؤات مماثلة تستند إلى فقدان اتفاقية، تمنع التجديدات الخارجية على الملصقات الصاخبة. تظهر تجارب واسعة على نطاق واسع على نطاق واسع ولكن صاخبة لاستخراج المعلومات، Tacred و Conll03، فعالية إطار عملنا. نطلق سرد علاماتنا للمجتمع للبحث في المستقبل.
تشكل إدارة المفاتيح في شبكات الحساسات اللاسلكية معضلة حقيقية، و ذلك بسبب غياب البنى التحتية الموثوق بها من جهة، و محدودية إمكانيات عقد الحساسات من جهة أخرى. نستعرض في هذا البحث الطرائق الحديثة المقترحة لإدارة المفاتيح في شبكات الحساسات اللاسلكية. نحد د أولاً بعض المشكلات التي تواجه إدارة المفاتيح. و نعرف بعد ذلك بعض المعايير للحلول الناجعة لمشكلات إدارة المفاتيح. نستكشف لاحقاً بعضاً من المنهجيات المقترحة في إدارية المفاتيح، و نحللها وفقاً للمعايير المقدمة. نناقش أخيراً بعض المشكلات المفتوحة للبحث.
التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا