قدمنا في هذا البحث دراسة مفصلة لطرق التنقيب في البيانات النصية
و الإمكانيات المتوفرة في لغة الاستعلام الإجرائية PL/SQL التي تتعامل مع قواعد بيانات
أوراكل الغرضية للقيام بذلك. و من ثم قمنا ببناء نموذج تنقيب يعمل على تصنيف وثائق
النصوص العربية باستخدام خوارزمية SVM لفهرستها و من ثم تحويلها إلى جداول بيانات
مدخلة في جداول الحالة لتصنيفها باستخدام خوارزمية Naïve Bayes و قدمنا
الاستنتاجات و التوصيات بعد تقييم النتائج التي حصلنا عليها.
In our research we offer detailed study of one of the data
mining functions within the text data using the object properties in
databases. It studies the possibility of applying this function on the
Arabic texts. We use procedural query language PL / SQL that
deals with the object of Oracle databases.
Data mining model Has been built. It works on classification
of Arabic texts documents using SVM algorithm for indexing of
texts and texts preparation, Naïve Bayes algorithm to classify data
after transformation it into nested tables. So we made an evaluation
of the obtained results and conclusions.
References used
AGGARWAL, CH ,2014–Data Classification Algorithms and Applications. First Edition, Taylor & Francis Group, LLC, New York, USA,64P
ALPAYDIN, E, 2010-Introduction to Machine Learning. Second Edition, Cambridge, Massachusetts London, England, 579p
BARBER,D,2010-Bayesian Reasoning and Machine Learning. First Edition, Cambridge University Press, London, England, 610p
In this paper, we introduce an algorithm for grouping Arabic
documents for building an ontology and its words. We execute
the algorithm on five ontologies using Java. We manage the
documents by getting 338667 words with its weights
corresponding
In this study, we study language change in Chinese Biji by using a classification task: classifying Ancient Chinese texts by time periods. Specifically, we focus on a unique genre in classical Chinese literature: Biji (literally notebook'' or brush n
In this paper, we present a Modern Standard Arabic (MSA) Sentence difficulty classifier, which predicts the difficulty of sentences for language learners using either the CEFR proficiency levels or the binary classification as simple or complex. We c
اخترنا في هذا المشروع العمل على تطوير نظام يقوم بتصنيف المستندات العربية حسب محتواها, يقوم هذه النظام بالتحليل اللفظي لكلمات المستند ثم إجراء عملية Stemming"رد الأفعال إلى أصلها" ثم تطبيق عملية إحصائية على المستند في مرحلة تدريب النظام ثم بالاعتماد
We use Hypergraph Attention Networks (HyperGAT) to recognize multiple labels of Chinese humor texts. We firstly represent a joke as a hypergraph. The sequential hyperedge and semantic hyperedge structures are used to construct hyperedges. Then, atten