نقدم في هذا البحث خوارزمية لتجميع نصوص اللغة العربية. حيث نفذنا الخوارزمية
على 5 أنطولوجيات عبر برنامج بلغة الجافا، ثم عالجنا النصوص بحيث حصلنا على
338667 مفردة مع أوزانها المقابلة لكل أنطولوجيا. و قد أثبتت الخوارزمية فعاليتها في تحسين أداء المصنفات التي تم تجربتها في هذه الدراسة و هي (NB,SVM) مقارنة مع نتائج مصنفات اللغة العربية السابقة.
In this paper, we introduce an algorithm for grouping Arabic
documents for building an ontology and its words. We execute
the algorithm on five ontologies using Java. We manage the
documents by getting 338667 words with its weights
corresponding to each ontology. The algorithm had proved its
efficiency in optimizing classifiers (SVM, NB) performance, which
we tested in this study, comparing with former classifiers results
for Arabic language.
Artificial intelligence review:
Research summary
تقدم هذه الدراسة خوارزمية جديدة لتصنيف النصوص العربية باستخدام الأنطولوجيا. تم تنفيذ الخوارزمية على خمس أنطولوجيات باستخدام لغة البرمجة جافا، وتم معالجة النصوص للحصول على 338667 مغردة مع أوزانها لكل أنطولوجيا. أثبتت الخوارزمية فعاليتها في تحسين أداء المصنفات مثل NB وSVM مقارنة مع نتائج المصنفات السابقة للغة العربية. تم تقسيم النصوص إلى فئات مثل الأخبار، الاقتصاد، الرياضة، العلم والتكنولوجيا، والأماكن والمواقع. تم استخدام محرك بحث Google لجمع النصوص، وتمت معالجة النصوص باستخدام أدوات مثل RapidMiner للحصول على المغردات وأوزانها. تم تدريب واختبار المصنفات باستخدام خوارزميات NB وSVM، حيث أظهرت النتائج أن مصنف SVM حقق أداءً أفضل من مصنف NB. تم تقييم المصنفات باستخدام معايير مثل F-measure، precision، وrecall، حيث حقق مصنف SVM دقة 99.31% بينما حقق مصنف NB دقة 99.00%. توصلت الدراسة إلى أن الخوارزمية المقترحة فعالة في تحسين دقة تصنيف النصوص العربية باستخدام الأنطولوجيا.
Critical review
دراسة نقدية: تعتبر هذه الدراسة خطوة مهمة في مجال تصنيف النصوص العربية باستخدام الأنطولوجيا، إلا أن هناك بعض النقاط التي يمكن تحسينها. أولاً، تم جمع النصوص باستخدام محرك بحث Google، مما قد يؤدي إلى تضمين نصوص غير ذات صلة بالأنطولوجيا المستهدفة. كان من الممكن تحسين دقة النتائج من خلال مراجعة يدوية للنصوص المسترجعة. ثانياً، لم يتم التطرق إلى تأثير حجم البيانات على أداء المصنفات بشكل كافٍ، حيث تم استخدام 2008 نص فقط. قد يكون من المفيد إجراء تجارب إضافية باستخدام مجموعات بيانات أكبر. أخيراً، يمكن تحسين الخوارزمية من خلال دمج تقنيات تعلم الآلة المتقدمة مثل الشبكات العصبية العميقة لتحسين دقة التصنيف.
Questions related to the research
-
ما هي الخوارزمية المستخدمة في تصنيف النصوص العربية في هذه الدراسة؟
تم استخدام خوارزمية جديدة لتصنيف النصوص العربية باستخدام الأنطولوجيا، وتم تنفيذها باستخدام لغة البرمجة جافا.
-
ما هي المصنفات التي تم استخدامها في هذه الدراسة؟
تم استخدام مصنفين هما Naive Bayes (NB) وSupport Vector Machine (SVM).
-
ما هي دقة المصنفات التي تم تحقيقها في هذه الدراسة؟
حقق مصنف SVM دقة 99.31% بينما حقق مصنف NB دقة 99.00%.
-
ما هي الفئات التي تم تصنيف النصوص إليها في هذه الدراسة؟
تم تصنيف النصوص إلى فئات مثل الأخبار، الاقتصاد، الرياضة، العلم والتكنولوجيا، والأماكن والمواقع.
References used
AL-Ghuribi,S Alshomrani,S. 2014. Bi-languages mining algorithm for classifying text documents (BiLTc), International Jornal of Academic Research Part A Vol. 6 No. 5, 16-25
Gruber,T. 1993. A translation approach to providing portable ontology specifications, Knowledge Acquisition, Vol.5 No 2, 199-220
Hastie,T Tibshirani,R Friedman.J. 2013-The elements of Statistical Learning - Data Mining, Inference, and Prediction. Springer-Verlag, second Ed, Berlin,764p
اخترنا في هذا المشروع العمل على تطوير نظام يقوم بتصنيف المستندات العربية حسب محتواها, يقوم هذه النظام بالتحليل اللفظي لكلمات المستند ثم إجراء عملية Stemming"رد الأفعال إلى أصلها" ثم تطبيق عملية إحصائية على المستند في مرحلة تدريب النظام ثم بالاعتماد
In our research we offer detailed study of one of the data
mining functions within the text data using the object properties in
databases. It studies the possibility of applying this function on the
Arabic texts. We use procedural query language P
This research is one stage of the construction of an Arabic speech synthesis
system, which is “text-to-phonemes transliteration”.
A complete text-to-phonemes transliteration system has been built for
Arabic language.
In this system we used TOPH (
In this paper, we present a Modern Standard Arabic (MSA) Sentence difficulty classifier, which predicts the difficulty of sentences for language learners using either the CEFR proficiency levels or the binary classification as simple or complex. We c
This paper deals with automatic detection of plagiarism in Arabic documents. We present in this paper a new idea based on the experimentation of lexical chains. The proposed method extracts those chains from original document and uses a search engine