إن الهدفَ الرئيسي من عمليةِ التنقيب في البيانات هو استخراج المعلومات و اكتشاف
المعرفةِ من قواعدِ البياناتِ الضخمة، حيث تُعتبر العنقدة أحد أهم الوظائف التي يمكن
القيامَ بها في هذا المجال. يوجدُ العديدُ من طرقِ و خوارزمياتِ العنقدة، إلا أن تحديد أو
تقدير عدد العناقيد التي يجبُ استخراجها من عينةٍ ما يعتبر من أهم القضايا التي تواجها
معظمُ هذه الطرق. يركز هذا البحث على مسألةِ تقديرِ عدد العناقيد في حالةِ العنقدة
الهرمية. نقَدم في هذا البحث تقييماً لثلاثةٍ من أكثرِ الطرقَ شيوعاً في تقديرِ عددِ العناقيد.
The main goal of data mining process is to extract information and
discover knowledge from huge databases, where the clustering is
one of the most important functionalities which can be done in this
area. There are many of clustering algorithms and methods, but
determining or estimating the number of clusters which should be
extracted from a dataset is one of the most important issues most of
these methods encounter it. This research focuses on the problem of
estimating number of clusters in the case of agglomerative
hierarchical clustering. We present an evaluation of three of the
most common methods used in estimating number of clusters.
Artificial intelligence review:
Research summary
تتناول هذه الورقة البحثية مسألة تقدير عدد العناقيد في حالة العنقدة الهرمية التكتلية، وهي إحدى أهم القضايا التي تواجه معظم طرق وخوارزميات العنقدة. يهدف البحث إلى تقييم ثلاثة من أكثر الطرق شيوعاً في تقدير عدد العناقيد وهي: مُعامِل الخيال (Silhouette Coefficient)، فهرس كالينسكي-هاراباز (CH Index)، وإحصائية الفجوة (Gap Statistic). يتم تقييم هذه الطرق من خلال المقارنة فيما بينها في دقة تقدير عدد العناقيد في حالتي البيانات النظيفة والبيانات التي تحوي حالات نشاز. تُظهر النتائج التجريبية تفاوت تأثير نوع الوصلة على دقة هذه الطرق بالإضافة إلى تفاوت مقاومة هذه الطرق لحالات النشاز، حيث كانت طريقة مُعامِل الخيال هي الأكثر تأثراً. يتم استخدام بيئة التطوير البرمجية Matlab 2014a لتوليد عينات البيانات وتطبيق الطرق المختلفة واختبارها. تتضمن الدراسة أيضاً مناقشة النتائج والتوصيات بناءً على السيناريوهات المختلفة التي تم اختبارها.
Critical review
دراسة نقدية: تقدم هذه الورقة البحثية تحليلاً شاملاً لثلاثة من أهم الطرق المستخدمة في تقدير عدد العناقيد في حالة العنقدة الهرمية التكتلية. ومع ذلك، يمكن ملاحظة بعض النقاط التي قد تحتاج إلى تحسين. أولاً، الدراسة تركز بشكل كبير على البيانات الرقمية وتغفل البيانات الاسمية التي قد تكون ذات أهمية في بعض التطبيقات العملية. ثانياً، لم يتم التطرق بشكل كافٍ إلى تأثير نوع الوصلة المستخدم على دقة الطرق المختلفة، وهو ما قد يكون له تأثير كبير على النتائج. ثالثاً، على الرغم من أن الدراسة تناولت حالات النشاز، إلا أنها لم تقدم حلولاً فعالة لمقاومة هذه الحالات بشكل كافٍ. وأخيراً، كان من الممكن تضمين طرق أخرى لتقدير عدد العناقيد لتقديم مقارنة أكثر شمولية.
Questions related to the research
-
ما هي الطرق الثلاثة التي تم تقييمها في هذه الدراسة لتقدير عدد العناقيد؟
الطرق الثلاثة هي: مُعامِل الخيال (Silhouette Coefficient)، فهرس كالينسكي-هاراباز (CH Index)، وإحصائية الفجوة (Gap Statistic).
-
ما هو الهدف الرئيسي من هذه الورقة البحثية؟
الهدف الرئيسي هو تقييم ثلاثة من أهم الطرق المستخدمة في تقدير عدد العناقيد في حالة العنقدة الهرمية التكتلية من خلال مقارنة دقتها في حالتي البيانات النظيفة والبيانات التي تحوي حالات نشاز.
-
ما هي بيئة التطوير البرمجية المستخدمة في هذه الدراسة؟
تم استخدام بيئة التطوير البرمجية Matlab 2014a لتوليد عينات البيانات وتطبيق الطرق المختلفة واختبارها.
-
ما هي النتائج الرئيسية التي توصلت إليها الدراسة بخصوص مقاومة الطرق لحالات النشاز؟
تُظهر النتائج التجريبية أن طريقة مُعامِل الخيال هي الأكثر تأثراً بحالات النشاز، بينما كانت الطريقتان CH Index وGap Statistic أقل تأثراً وأفضل في تقدير عدد العناقيد في وجود حالات النشاز.
References used
Amorim R, Hennig C, 2015 Recovering the number of clusters in data sets with noise features using feature rescaling factors, Information Sciences, vol. 324. 126-145
Arbelaitz O, Gurrutxaga I, Muguerza J, Perez J, Perona I. 2013 An extensive comparative study of cluster validity indices, Pattern Recognition, Vol. 46. 243-256
Berry Michael J.A, Linoff Gordon S, 2004- Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management. Wiley, 2nd edition USA, 672p
The low cost, ease of deployment has exposed WSNs an attractive choice for numerous applications,like environmental monitoring applications , security applications, real time tracking, and so on.
But in reality, these networks are operated on batte
choose the right way to dividing set of data with high dimensions to clusters in specific field and comparison the different subspace clustering algorithms and present the applications and usage
Architectural design subject is the backbone of the architectural education
curriculum. Moreover, the outcome of architectural design subject of first year is the base
that will form the students’ architectural thinking and skills in the upper leve
Recently, the focus of dialogue state tracking has expanded from single domain to multiple domains. The task is characterized by the shared slots between domains. As the scenario gets more complex, the out-of-vocabulary problem also becomes severer.
Open relation extraction (OpenRE) aims to extract novel relation types from open-domain corpora, which plays an important role in completing the relation schemes of knowledge bases (KBs). Most OpenRE methods cast different relation types in isolation