ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين نتائج استرجاع المعلومات العربية دلالياً باستخدام الأنتولوجيا

Improving Arabic Information Retrieval Results Semantically Using Ontology

2297   2   32   0 ( 0 )
 تاريخ النشر 2016
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يهدف هذا البحث إلى اقتراح طريقة لتحسين نتائج استرجاع المعلومات العربية دلالياً و ذلك بتلخيص النصوص تجريدياً (Abstractive Summary) باستخدام خوارزميات معالجة اللغات الطبيعية (NLP), حل غموض معاني الكلمات (WSD) و قياس التشابهية الدلالية (Semantic Similarity) فيما بينها باستخدام الأنتولوجيا العربية Arabic WordNet.


ملخص البحث
نظراً لانتشار المعلومات بشكل واسع وتنوع مصادرها، يهدف هذا البحث إلى اقتراح طريقة لتحسين نتائج استرجاع المعلومات العربية دلالياً باستخدام تلخيص النصوص تجريدياً (Abstractive Summary) عبر خوارزميات معالجة اللغات الطبيعية (NLP)، وحل غموض معاني الكلمات (WSD)، وقياس التشابهية الدلالية باستخدام الأنتولوجيا العربية (WordNet). يتمثل الهدف الرئيسي في تطوير نظام يقوم باستخلاص المعلومات الأكثر أهمية من نص غير مهيكل بعبارات متماسكة ومختصرة ودمجها في نص جديد بتنسيق قابل للقراءة وبطول محدد. يعتمد البحث على تطبيق معالجة اللغات الطبيعية على النص المدخل ثم تمثيله دلالياً باستخدام أنتولوجيا الوورد نت لحل غموض معاني الكلمات وفهم التشابهية الدلالية بين مفاهيمها، ومن ثم بناء الجمل الجديدة للملخص الناتج وترتيبها حسب أهميتها بالنسبة للنص الأصلي. تم اختبار النظام البرمجي على عدد من النصوص الموجودة في مجمع الملخصات العربية يدوياً (Essex Arabic Summaries Corpus) ومقارنة نتائج التلخيص الآلي بواسطة نظام الملخص الدلالي للنصوص العربية مع نتائج التلخيص اليدوي، وكانت النتائج متقاربة جداً. يوصي البحث بتطوير ملخص النصوص الحالي بحيث يدعم لغات أخرى غير اللغة العربية مثل اللغة الإنجليزية والفرنسية وغيرها، خصوصاً أنها مدعمة ضمن قاعدة بيانات WordNet.
قراءة نقدية
دراسة نقدية: يعد هذا البحث خطوة مهمة نحو تحسين استرجاع المعلومات العربية باستخدام تقنيات حديثة مثل الأنتولوجيا ومعالجة اللغات الطبيعية. ومع ذلك، هناك بعض النقاط التي يمكن تحسينها. أولاً، يفتقر البحث إلى تفاصيل دقيقة حول كيفية التعامل مع التحديات اللغوية الفريدة للغة العربية مثل التشكيل والاشتقاق. ثانياً، لم يتم التطرق بشكل كافٍ إلى كيفية تحسين الأداء في النصوص ذات السياقات المتعددة والمعقدة. ثالثاً، يمكن أن يكون هناك مزيد من التوضيح حول كيفية تطبيق النظام على نطاق واسع في بيئات حقيقية. وأخيراً، يفضل أن يتم اختبار النظام على مجموعة متنوعة من النصوص من مجالات مختلفة لضمان عمومية النتائج وفعاليتها.
أسئلة حول البحث
  1. ما هو الهدف الرئيسي من البحث؟

    الهدف الرئيسي هو تحسين نتائج استرجاع المعلومات العربية دلالياً باستخدام تلخيص النصوص تجريدياً عبر خوارزميات معالجة اللغات الطبيعية وحل غموض معاني الكلمات وقياس التشابهية الدلالية باستخدام الأنتولوجيا العربية.

  2. ما هي الأدوات والتقنيات المستخدمة في البحث؟

    تم استخدام خوارزميات معالجة اللغات الطبيعية (NLP)، وحل غموض معاني الكلمات (WSD)، وقياس التشابهية الدلالية باستخدام الأنتولوجيا العربية (WordNet).

  3. كيف تم اختبار فعالية النظام المقترح؟

    تم اختبار النظام البرمجي على عدد من النصوص الموجودة في مجمع الملخصات العربية يدوياً (Essex Arabic Summaries Corpus) ومقارنة نتائج التلخيص الآلي بواسطة نظام الملخص الدلالي للنصوص العربية مع نتائج التلخيص اليدوي.

  4. ما هي التوصيات المستقبلية التي قدمها البحث؟

    يوصي البحث بتطوير ملخص النصوص الحالي بحيث يدعم لغات أخرى غير اللغة العربية مثل اللغة الإنجليزية والفرنسية وغيرها، خصوصاً أنها مدعمة ضمن قاعدة بيانات WordNet.


المراجع المستخدمة
Luhn, P., 1958, The Automatic Creation of Literature Abstracts, IBM Journal, April
Salton, G., MichaelJ., 1986, Introduction to Modern Information Retrieval, McGrawHill, Inc., New York, NY, USA
I.Fathy, D., Aref, M., 2012, Rich Semantic Representation Based Approach for Text Generation, The 8th International conference on Informatics and systems
قيم البحث

اقرأ أيضاً

تحتل الدراسات التي تتناول حوسبة اللغة العربية أهمية كبيرة نظراً للانتشار الواسع للغة العربية , و اخترنا في هذه الدراسة العمل على معالجة اللغة العربية من خلال نظام استرجاع معلومات للمستندات باللغة العربية , الفكرة الأساسية لهذا النظام هو تحليل المستن دات والنصوص العربية و إنشاء فهارس للمصطلحات الواردة فيها , ومن ثم استخلاص أشعة أوزان تعبر عن هذه المستندات من أجل المعالجة اللاحقة للاستعلام و المقارنة مع هذه الأشعة للحصول على المستندات الموافقة لهذا الاستعلام . من خلال عملية تجريد للمصطلحات الواردة في المستندات تم الحصول على كفاءة استرجاع أفضل , و تعرضنا للعديد من خوارزميات التجريد التي وصلت إليها الدراسات السابقة . و تأتي عملية عنقدة المستندات كإضافة هامة , حيث يتمكن المستخدم من معرفة المستندات المشابهة لنتيجة البحث و التي لها صلة بـالاستعلام المدخل . في التطبيق العملي , تم العمل على نظام استرجاع معلومات مكتبي , يقوم بقراءة نصوص ذات أنواع مختلفة و عرض النتائج مع العناقيد الموافقة لها .
إن إدخال طلاب المعلوماتيين الطبية الحيوية (BMI) للمعالجة اللغوية الطبيعية (NLP) يتطلب موازنة العمق الفني مع المعرفة العملية لمعالجة الاحتياجات التي تركز على التطبيق.قمنا بتطوير مجموعة من ثلاثة أنشطة إدخال طلاب BMI تمهيدي لاسترجاع المعلومات مع NLP، وا لغطاء استراتيجيات تمثيل المستندات ونماذج اللغة من TF-IDF إلى Bert.تزود هذه الأنشطة الطلاب بتجربة عملية مستهدفة نحو حالات الاستخدام المشترك، وإدخال مكونات أساسية من سير العمل NLP لمجموعة واسعة من التطبيقات.
عملية التحقق من المطالبة تحديا لأنها تتطلب أولا العثور على أدلة نصية ثم قم بتطبيق تستيط أدلة المطالبة للتحقق من مطالبة.تقوم Works السابقة بتقييم خطوة الاستقبال استنادا إلى الأدلة المستردة، في حين أننا نفترض أن التنبؤ الاستيباري يمكن أن يوفر إشارات مف يدة لاسترجاع الأدلة، بمعنى أنه إذا كانت الجملة تدعم مطالبة أو يجب أن تكون الجملة ذات صلة.نقترح نموذج جديد يستخدم النتيجة الاستقبال للتعبير عن الملاءمة.تجاربنا تحقق من أن الاستفادة من التنبؤ التنفيذ يحسن الترتيب قطع متعددة من الأدلة.
التحقق من الحقائق الآلية على نطاق واسع هو مهمة صعبة لم تتم دراستها بشكل منهجي حتى وقت قريب.مجموعات وثيقة صاخبة كبيرة مثل الويب أو المقالات الإخبارية تجعل المهمة أكثر صعوبة.نحن تصف نظام فحص الحقائق الآلي من ثلاث مراحل، اسمه Quin +، باستخدام أساليب است رجاع الأدلة والاختيار.نحن نوضح أن استخدام تمثيلات مرور كثيفة يؤدي إلى أدلة أعلى بكثير استدعاء في بيئة صاخبة.نقترح أيضا أساليب اختيار الجملة، وهي اختيار مقرها التضمين باستخدام نموذج استرجاع كثيف، ونهج وضع العلامات المتسلسل لتحديد السياق.QUIN + قادر على التحقق من مطالبات المجال المفتوح باستخدام النتائج من محركات البحث على الويب.
تستخدم الرسوم البيانية المعرفة (KGS) على نطاق واسع لتخزين المعلومات والوصول إليها حول الكيانات وعلاقاتها.بالنظر إلى استفسار، تهدف مهمة استرجاع الكيانات من KG إلى تقديم قائمة في المرتبة ذات الصلة بالاستعلام.في الآونة الأخيرة، أظهر عدد متزايد من النماذ ج لاسترجاع الكيان تحسنا كبيرا على الأساليب التقليدية.هذه النماذج، ومع ذلك، تم تطويرها للكلية الإنجليزية.في هذا العمل، نبني على نظام واحد من هذا القبيل، يدعى Kewer، لاقتراح Serag (استرجاع الكيانات الدلالي من الرسوم البيانية المعرفة العربية).مثل Kewer، يستخدم Serag مناحي عشوائي لتوليد embeddings للكياء.تعتبر DBPedia-Entity V2 مجموعة الاختبار القياسية لاسترجاع الكيان.نناقش تحديات استخدامها للغات غير الإنجليزية بشكل عام والعربية على وجه الخصوص.نحن نقدم نسخة عربية من هذه المجموعة القياسية، واستخدامها لتقييم Serag.يظهر Serag أنه يتفوق بشكل كبير على نموذج BM25 الشهير بفضل التفكير المتعدد القفز.
التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا