Do you want to publish a course? Click here

Information Retrieval System For Arabic Language

نظام استرجاع معلومات للغة العربية

3493   4   909   0 ( 0 )
 Publication date 2014
and research's language is العربية
 Created by Shaban Khatib




Ask ChatGPT about the research

No English abstract


Artificial intelligence review:
Research summary
تتناول هذه الدراسة نظام استرجاع المعلومات للغة العربية، حيث يتم تحليل المستندات والنصوص العربية وإنشاء فهارس للمصطلحات الواردة فيها. يتم استخلاص أشعة أوزان تعبر عن هذه المستندات من أجل المعالجة اللاحقة للاستعلام والمقارنة مع هذه الأشعة للحصول على المستندات الموافقة للاستعلام. تتضمن الدراسة عدة فصول تتناول محركات البحث، استرجاع المعلومات، تحليل النصوص، التجريد، وعنقدة المستندات. يتم شرح آلية عمل محركات البحث على الويب، المشاكل اللغوية في استرجاع المعلومات، اللغات المتحكم بها وغير المتحكم بها، النهج الإحصائي واللغوي، نماذج استرجاع المعلومات الرئيسية، وخوارزميات التجريد المختلفة. كما تتناول الدراسة عنقدة المستندات باستخدام خوارزميات مثل K-Means، وتطبيق عملي لنظام استرجاع معلومات مكتبي يقوم بقراءة نصوص ذات أنواع مختلفة وعرض النتائج مع العناقيد الموافقة لها. يتم استخدام خوارزميات التجريد لتحسين كفاءة استرجاع المعلومات، ويتم تطبيق خوارزميات مثل خوارزمية مارتن بورتر وخوارزمية ISRI لتجريد اللغة العربية. كما يتم مناقشة تحليل الكلمات المترافقة والطرق الإحصائية في التجريد. تتضمن الدراسة أيضًا تطبيقات نموذجية لتحليل النصوص مثل تحليل إجابات الاستبيانات، المعالجة الأوتوماتيكية للرسائل، وتحليل دعاوى الكفالة أو التأمين. يتم في النهاية تقديم نظام عملي لاسترجاع المعلومات يتضمن أدوات مثل المجرد Porter للغة الإنجليزية والمجرد Arabic Stemmer للغة العربية، والمكتبة Tika لاستخراج النصوص من مختلف صيغ المستندات.
Critical review
تعتبر هذه الدراسة شاملة ومفصلة في تناول موضوع استرجاع المعلومات للغة العربية، حيث تغطي العديد من الجوانب المهمة مثل محركات البحث، التجريد، وعنقدة المستندات. ومع ذلك، يمكن أن تكون الدراسة أكثر فعالية إذا تم التركيز بشكل أكبر على التطبيقات العملية والتجارب الحقيقية للنظام المقترح. كما أن الدراسة تعتمد بشكل كبير على النظريات والخوارزميات التقليدية، ويمكن أن تستفيد من دمج تقنيات حديثة مثل التعلم العميق والذكاء الاصطناعي لتحسين أداء النظام. بالإضافة إلى ذلك، يمكن تحسين الدراسة من خلال تقديم أمثلة عملية وتوضيحية أكثر لتطبيقات النظام في مجالات مختلفة.
Questions related to the research
  1. ما هي الفائدة من استخدام خوارزميات التجريد في استرجاع المعلومات؟

    تساعد خوارزميات التجريد في تحسين كفاءة استرجاع المعلومات من خلال إزالة الإضافات من الكلمات واستبدالها بجذورها، مما يقلل من حجم المستندات ويسهل عملية البحث النصي وتحليل النصوص.

  2. ما هي المشاكل اللغوية التي تواجه نظم استرجاع المعلومات؟

    تشمل المشاكل اللغوية في نظم استرجاع المعلومات مشكلة المرادفات، مشكلة الألفاظ المتجانسة، ومشكلة تغيرات الكلمة، حيث يمكن أن تؤدي هذه المشاكل إلى صعوبة في الوصول إلى المعلومات ذات الصلة بدقة.

  3. كيف يمكن تحسين أداء نظام استرجاع المعلومات باستخدام النهج الإحصائي؟

    يمكن تحسين أداء نظام استرجاع المعلومات باستخدام النهج الإحصائي من خلال تحليل تكرار الكلمات في المستندات واستخدام هذه المعلومات لتحديد الكلمات الدلالية الهامة، مما يساعد في تحسين دقة وفعالية عملية الاسترجاع.

  4. ما هي أهمية عنقدة المستندات في نظم استرجاع المعلومات؟

    تساعد عنقدة المستندات في تنظيم المستندات المشابهة في مجموعات، مما يسهل على المستخدمين العثور على المستندات ذات الصلة بموضوع البحث ويعزز من دقة وفعالية عملية الاسترجاع.


References used
Castillo , Carlos. Effective Web Crawling . Thesis. Dept. of Computer Science – University of Chile, 2004
Lin, E.A.-S.a.J., A new Arabic stemming algorithm. In Proceedings of the 2008 ISCA Workshop on Experimental Linguistics, 2008
Porter, M.F., An algorithm for suffix stripping, in Readings in information retrieval, J. Karen Sparck and W. Peter, Editors. 1997, Morgan Kaufmann Publishers Inc. p. 313-316
Unine, Stop Word List, 2012
Al-Shammari, E.T. Improving Arabic document categorization: Introducing local stem. in Intelligent Systems Design and Applications (ISDA), 2010 10th International Conference on. 2010
Larkey, L.S., L. Ballesteros, and M.E. Connell, Improving stemming for Arabic information retrieval: light stemming and co-occurrence analysis, in Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval2002, ACM: Tampere, Finland. p. 275-282
Khoja, S. Khoja Stemmer. 2012 [cited 2012 Mar 2012]; Available from: http//:zeus.cs.pacificu.edu/shereen/research.htm
Larkey, Leah S., Lisa Ballesteros, and Margaret E. Connell. "Light stemming for Arabic information retrieval." Arabic computational morphology. Springer Netherlands, 2007. 221-243
Luhn, H. P. (1957). A statistical approach to the mechanized encoding and starching of literary information. IBM Journal of Research and Development, 1 (4). pp 309-317
Warner, Amy J.; Ann Arbor and Aspen H. Wenzel (1991). A linguistic analysis and categorisation of nominal expressions. ASIS'9 I, pp. 186-191
Harter, Stephen P. ( 1986) . Online information retrieval: Concepts, principles, and techniques. Orlando: Academic Press INC
Salton, G. and M. McGill (1983). Introduction to Modern Information Retrieval. McGraw-Hill
Salton, G. and C. Yang (1973). On the specication of term values in automatic indexing. Jounral of Documentation 29 (4), 351-372
Maron, M. and J. Kuhns (1960). On relevance, probabilistic indexing and information retrieval. Journal of the Association for Computing Machin- ery 7, 216-244
Ponte, J., & Croft, W. B. (1998). A language modeling approach to information retrieval. In Proceedings of the 21st ACM SIGIR Annual International Conference on Research and Development in Information Retrieval (pp. 275-281). Melbourne, Australia
rate research

Read More

Knowledge graphs (KGs) are widely used to store and access information about entities and their relationships. Given a query, the task of entity retrieval from a KG aims at presenting a ranked list of entities relevant to the query. Lately, an increa sing number of models for entity retrieval have shown a significant improvement over traditional methods. These models, however, were developed for English KGs. In this work, we build on one such system, named KEWER, to propose SERAG (Semantic Entity Retrieval from Arabic knowledge Graphs). Like KEWER, SERAG uses random walks to generate entity embeddings. DBpedia-Entity v2 is considered the standard test collection for entity retrieval. We discuss the challenges of using it for non-English languages in general and Arabic in particular. We provide an Arabic version of this standard collection, and use it to evaluate SERAG. SERAG is shown to significantly outperform the popular BM25 model thanks to its multi-hop reasoning.
اخترنا في هذا المشروع العمل على تطوير نظام يقوم بتصنيف المستندات العربية حسب محتواها, يقوم هذه النظام بالتحليل اللفظي لكلمات المستند ثم إجراء عملية Stemming"رد الأفعال إلى أصلها" ثم تطبيق عملية إحصائية على المستند في مرحلة تدريب النظام ثم بالاعتماد على خوارزميات في الذكاء الصنعي يتم تصنيف المستند حسب محتواه ضمن عناقيد
An expert system was developed to consider words' grammar case in Arabic phrases without diacritics. First, the system gets words' morphology and tags using Microsoft tool (ATK), then it depends on Arabic grammar to get words' grammar case in nominal phrases. The system gave a very good results as they compared with Arabic language expert.
Introducing biomedical informatics (BMI) students to natural language processing (NLP) requires balancing technical depth with practical know-how to address application-focused needs. We developed a set of three activities introducing introductory BM I students to information retrieval with NLP, covering document representation strategies and language models from TF-IDF to BERT. These activities provide students with hands-on experience targeted towards common use cases, and introduce fundamental components of NLP workflows for a wide variety of applications.
comments
Fetching comments Fetching comments
Sign in to be able to follow your search criteria
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا