مع التطور الهائل في جميع المجالات العلمية و الاقتصادية و السياسية و غيرها ظهرت الحاجة لإيجاد طرق غير تقليدية للتعامل من خلالها مع البيانات بجميع أنماطها ( النصية و المرئية و الصوتية و غيرها ) والتي أصبحت ذات حجوم كبيرة جداً في هذه الأيام. فكان لابد من إيجاد طرق جديدة لاستنباط المعرفة و المعلومات المخبأة ضمن هذا الكم الهائل من
البيانات كالاستعلام عن الزبائن الذين لديهم عادات شرائية متماثلة أو التوقعات المحتلمة لبيع سمعة معينة في إحدى المناطق الجغرافية و غيرها من الاستعلامات الاستنتاجية و التي تعتمد على تقنية التنقيب في البيانات. و تتم عملية التنقيب بعدة أساليب من أهمها أسلوب العنقدة (التجميع) Clustering و الذي يتم بعدة خوارزميات.
سوف نرّكز في بحثنا هذا على استخدام طريقة مدروسة لإيجاد المراكز الابتدائية لخوارزمية K-Medoids التي تقوم على مبدأ تقسيم البيانات إلى عناقيد كل عنقود يحوي بيانات متماثمة يَسهل التعامل معها بدلاً من اختيارها بالشكل العشوائي الذي يؤدي بدوره لظهور نتائج مختلفة وبطئ في تنفيذ الخوارزمية .
With the tremendous development in all areas of scientific,
economic, political and other appeared the need to find nontraditional ways in which to deal with all the data patterns (text, video and audio, etc.), which are becoming very large volumes these days. Was necessary to find new ways to develop knowledge and information hidden within this huge amount of data such as query for customers who have habits of purchasing the same or prospects for the sale of a particular commodity in one of the geographical areas and other queries deductive and based on the technology of data mining. The process of exploration in several of the most important methods of clustering method (assembly) Clustering, which are several algorithms.
We will focus in this research on the use of a way calculated to create centers of First Instance of the algorithm K-Medoids which is based on the principle of the division of data into clusters each
cluster contains a replica database easy to handle, rather than
selected as random which in turn leads to the emergence of different results and slow in the implementation of the algorithm.
Artificial intelligence review:
Research summary
يتناول البحث الذي قدمه طه مختار البابا تحسين خوارزمية K-Medoids المستخدمة في عملية العنقدة أو التجميع في التنقيب عن البيانات. يوضح البحث أهمية التنقيب في البيانات في العصر الحالي الذي يتميز بالانفجار المعلوماتي، ويستعرض كيفية تحسين أداء خوارزمية K-Medoids من خلال تعيين المراكز الابتدائية بشكل مدروس بدلاً من اختيارها عشوائياً. يهدف هذا التحسين إلى تقليل عدد التكرارات اللازمة لتنفيذ الخوارزمية وتقليل الزمن المستغرق في التنفيذ، مما يجعلها أكثر كفاءة في التعامل مع البيانات الكبيرة. تم اختبار الخوارزمية المعدلة باستخدام تطبيق برمجي بلغة #C، وأظهرت النتائج تحسناً ملحوظاً في الأداء مقارنة بالخوارزمية العادية. يوصي البحث باستخدام الخوارزمية المعدلة في مجالات تتطلب التعامل مع كميات كبيرة من البيانات مثل بيانات الطلبة في وزارتي التربية والتعليم العالي.
Critical review
دراسة نقدية: يعتبر البحث خطوة مهمة نحو تحسين خوارزمية K-Medoids، إلا أنه يواجه بعض التحديات. من أبرز هذه التحديات هو أن الخوارزمية المعدلة قد لا تكون فعالة بنفس القدر مع جميع أنواع البيانات، حيث أن تحسين الأداء يعتمد بشكل كبير على طبيعة البيانات المستخدمة. كما أن البحث لم يتناول بشكل كافٍ كيفية التعامل مع البيانات الشاذة التي قد تؤثر على دقة النتائج. بالإضافة إلى ذلك، قد يكون من المفيد توسيع نطاق الاختبارات لتشمل أنواعاً مختلفة من البيانات واستخدام تقنيات أخرى للمقارنة. على الرغم من هذه النقاط، فإن البحث يقدم إسهاماً قيماً في مجال التنقيب عن البيانات ويضع أساساً لتحسينات مستقبلية.
Questions related to the research
-
ما هو الهدف الرئيسي من البحث؟
الهدف الرئيسي من البحث هو تحسين أداء خوارزمية K-Medoids من خلال تعيين المراكز الابتدائية بشكل مدروس بدلاً من اختيارها عشوائياً، مما يقلل من عدد التكرارات والزمن المستغرق في التنفيذ.
-
ما هي الفوائد المتوقعة من استخدام الخوارزمية المعدلة؟
الفوائد المتوقعة تشمل تحسين كفاءة الخوارزمية في التعامل مع البيانات الكبيرة، تقليل عدد التكرارات اللازمة، وتقليل الزمن المستغرق في التنفيذ، مما يجعلها أكثر فعالية في مجالات تتطلب تحليل كميات كبيرة من البيانات.
-
ما هي التحديات التي يواجهها البحث؟
التحديات تشمل فعالية الخوارزمية المعدلة مع أنواع مختلفة من البيانات، التعامل مع البيانات الشاذة، وتوسيع نطاق الاختبارات لتشمل تقنيات أخرى للمقارنة.
-
ما هي التوصيات المستقبلية التي يقدمها البحث؟
يوصي البحث بزيادة فعالية الخوارزمية وزيادة كفاءتها لتصبح ذات فائدة أكبر في التعامل مع البيانات الكبيرة جداً مثل مواقع الانترنت بجميع مجالاتها واختصاصاتها.
References used
Dunham, M. H. 2003-Data Mining: Introductory and Advanced Topics. Prentice Hal Bazsalica, 328p
Kaufman,L. Rousseeuw,P2010-Finding Groups in Data: an .Introduction to Cluster Analysis. John,170p
Berry,J. Linoff.G2004-Data Mining Techniques For Marketing, Sales, and Customer Relationship Management, Indianapolis,150p
Ng,R, Han.J-2008-Efficient and Effective Clustering Methods for Spatial Data Mining, Conf, 144p
Xu Yifeng Chen Chunming. 2009 ONTOLOGY-BASED WEB MINING Computer Applications and software, 180p
The algorithm classifies objects to a predefined number of clusters, which is given by the user (assume k clusters). The idea is to choose random cluster centers, one for each cluster. These centers are preferred to be as far as possible from each ot
This paper introduces a new algorithm to solve some problems
that data clustering algorithms such as K-Means suffer from.
This new algorithm by itself is able to cluster data without the
need of other clustering algorithms.
Following the success of dot-product attention in Transformers, numerous approximations have been recently proposed to address its quadratic complexity with respect to the input length. While these variants are memory and compute efficient, it is not
Jujeop is a type of pun and a unique way for fans to express their love for the K-pop stars they follow using Korean. One of the unique characteristics of Jujeop is its use of exaggerated expressions to compliment K-pop stars, which contain or lead t
We study in this research some properties of wide class of curves, called k-curves, which is defined by a relation existing between arches and chords connecting any two arbitrary points on it
Especially we study the effect of some mappes on the curves of this class.
Then we study the approximation of weighted Holder class of function on k-curves.