ترغب بنشر مسار تعليمي؟ اضغط هنا

تقييم طرق تقدير عدد العناقيد في حالة العنقدة الهرمية التكتلية

Evaluation of Estimating Number of Clusters Methods in Case of Agglomerative Hierarchical Clustering

2092   1   196   0 ( 0 )
 تاريخ النشر 2016
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إن الهدفَ الرئيسي من عمليةِ التنقيب في البيانات هو استخراج المعلومات و اكتشاف المعرفةِ من قواعدِ البياناتِ الضخمة، حيث تُعتبر العنقدة أحد أهم الوظائف التي يمكن القيامَ بها في هذا المجال. يوجدُ العديدُ من طرقِ و خوارزمياتِ العنقدة، إلا أن تحديد أو تقدير عدد العناقيد التي يجبُ استخراجها من عينةٍ ما يعتبر من أهم القضايا التي تواجها معظمُ هذه الطرق. يركز هذا البحث على مسألةِ تقديرِ عدد العناقيد في حالةِ العنقدة الهرمية. نقَدم في هذا البحث تقييماً لثلاثةٍ من أكثرِ الطرقَ شيوعاً في تقديرِ عددِ العناقيد.


ملخص البحث
تتناول هذه الورقة البحثية مسألة تقدير عدد العناقيد في حالة العنقدة الهرمية التكتلية، وهي إحدى أهم القضايا التي تواجه معظم طرق وخوارزميات العنقدة. يهدف البحث إلى تقييم ثلاثة من أكثر الطرق شيوعاً في تقدير عدد العناقيد وهي: مُعامِل الخيال (Silhouette Coefficient)، فهرس كالينسكي-هاراباز (CH Index)، وإحصائية الفجوة (Gap Statistic). يتم تقييم هذه الطرق من خلال المقارنة فيما بينها في دقة تقدير عدد العناقيد في حالتي البيانات النظيفة والبيانات التي تحوي حالات نشاز. تُظهر النتائج التجريبية تفاوت تأثير نوع الوصلة على دقة هذه الطرق بالإضافة إلى تفاوت مقاومة هذه الطرق لحالات النشاز، حيث كانت طريقة مُعامِل الخيال هي الأكثر تأثراً. يتم استخدام بيئة التطوير البرمجية Matlab 2014a لتوليد عينات البيانات وتطبيق الطرق المختلفة واختبارها. تتضمن الدراسة أيضاً مناقشة النتائج والتوصيات بناءً على السيناريوهات المختلفة التي تم اختبارها.
قراءة نقدية
دراسة نقدية: تقدم هذه الورقة البحثية تحليلاً شاملاً لثلاثة من أهم الطرق المستخدمة في تقدير عدد العناقيد في حالة العنقدة الهرمية التكتلية. ومع ذلك، يمكن ملاحظة بعض النقاط التي قد تحتاج إلى تحسين. أولاً، الدراسة تركز بشكل كبير على البيانات الرقمية وتغفل البيانات الاسمية التي قد تكون ذات أهمية في بعض التطبيقات العملية. ثانياً، لم يتم التطرق بشكل كافٍ إلى تأثير نوع الوصلة المستخدم على دقة الطرق المختلفة، وهو ما قد يكون له تأثير كبير على النتائج. ثالثاً، على الرغم من أن الدراسة تناولت حالات النشاز، إلا أنها لم تقدم حلولاً فعالة لمقاومة هذه الحالات بشكل كافٍ. وأخيراً، كان من الممكن تضمين طرق أخرى لتقدير عدد العناقيد لتقديم مقارنة أكثر شمولية.
أسئلة حول البحث
  1. ما هي الطرق الثلاثة التي تم تقييمها في هذه الدراسة لتقدير عدد العناقيد؟

    الطرق الثلاثة هي: مُعامِل الخيال (Silhouette Coefficient)، فهرس كالينسكي-هاراباز (CH Index)، وإحصائية الفجوة (Gap Statistic).

  2. ما هو الهدف الرئيسي من هذه الورقة البحثية؟

    الهدف الرئيسي هو تقييم ثلاثة من أهم الطرق المستخدمة في تقدير عدد العناقيد في حالة العنقدة الهرمية التكتلية من خلال مقارنة دقتها في حالتي البيانات النظيفة والبيانات التي تحوي حالات نشاز.

  3. ما هي بيئة التطوير البرمجية المستخدمة في هذه الدراسة؟

    تم استخدام بيئة التطوير البرمجية Matlab 2014a لتوليد عينات البيانات وتطبيق الطرق المختلفة واختبارها.

  4. ما هي النتائج الرئيسية التي توصلت إليها الدراسة بخصوص مقاومة الطرق لحالات النشاز؟

    تُظهر النتائج التجريبية أن طريقة مُعامِل الخيال هي الأكثر تأثراً بحالات النشاز، بينما كانت الطريقتان CH Index وGap Statistic أقل تأثراً وأفضل في تقدير عدد العناقيد في وجود حالات النشاز.


المراجع المستخدمة
Amorim R, Hennig C, 2015 Recovering the number of clusters in data sets with noise features using feature rescaling factors, Information Sciences, vol. 324. 126-145
Arbelaitz O, Gurrutxaga I, Muguerza J, Perez J, Perona I. 2013 An extensive comparative study of cluster validity indices, Pattern Recognition, Vol. 46. 243-256
Berry Michael J.A, Linoff Gordon S, 2004- Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management. Wiley, 2nd edition USA, 672p
قيم البحث

اقرأ أيضاً

أدت كل من التكلفة المنخفضة و سهولة نشر شبكات الحساسات اللاسلكية إلى جعلها خياراً جذاباً للعديد من التطبيقات مثل تطبيقات مراقبة البيئة و التعقب في الزمن الحقيقي و الأمن و غيرها. و لكن في الواقع تتغذى عقد هذه الشبكات من البطاريات و تملك قيودا على الذاك رة , و عرض الحزمة المتاح , و القدرة على المعالجة, مما جعلها توصف بأنها شبكات ذات طبيعة مقيدة للموارد و هذا ما فرض مجموعة من التحديات على تصميم و أداء هذه الشبكات . إن سعة البطارية المحدودة في عقد الحساسات جعل موضوع استهلاك الطاقة بفعالية و كفاءة تحدٍ رئيسي في هذه الشبكات. لذا توجب على بروتوكولات التوجيه أن تستخدم الطاقة بفعالية بهدف إطالة عمر الشبكة . قمنا في هذه البحث بإجراء محاكاة لمجموعة من بروتوكولات التوجيه الهرمية و هي LEACH,SEP,DEEC,TEEN و تقييم أدائها مقارنة ببروتوكول النقل المباشر DT و ذلك في شبكات WSN المتجانسة و المتباينة باستخدام الماتلاب.
اختيار الطريقة المناسبة لتجزيء مجموعة من البيانات الكبيرة والتي تصف مجموعة من الخصائص الخاصة بمجال معين الى عناقيد (مجموعات) والمقارنة بين الطرق المختلفة للعنقدة بتجزيء الفضاء من حيث الإيجابيات والسلبيات وعرض التطبيقات المختلفة عليها واستخداماتها
تعتبر مادة التصميم المعماري العمود الفقري في منهاج اختصاص الهندسة المعمارية، و هي تستحوذ على الاهتمام الأكبر لأساتذة العمارة. و تعتبر المخرجات التعليمية لمادة التصميم المعماري في السنة الأولى الأساس الذي سيبني عليه الطالب أفكاره و مهاراته التصميمية ف ي المستويات الأعلى. يناقش هذا البحث المنهجية التدريسية لمادة التصميم المعماري لطلاب السنة الأولى في كلية الهندسة المعمارية في جامعة دمشق و طرق تدريسها و إمكانية تطويرها، و ذلك من اجل تطوير إمكانيات و مهارات الطلاب الإبداعية في حل المشكلة التصميمية و تحضيرهم للانتقال إلى المراحل التصميمية الأعلى. و من اجل الوصول إلى الهدف، يتناول البحث دراسة وجهة نظر و آراء أساتذة (36 أستاذ) مادة التصميم المعماري للسنة الأولى حول المنهجية التعليمية و طرق تدريسها، و لما كان رأي الطلاب مهما" في تقييم و تطوير المنهجية التعليمية لمادة التصميم المعماري سيأخذ الباحث آراء الطلاب أيضا" (114 طالب و طالبة). و نتيجة تحليل الاستبيان الموجه إلى الأساتذة و الطلاب يتوصل الباحث الى توصيات و مقترحات تساعد في تطوير منهجية و طرق تدريس مادة التصميم المعماري بشكل عام و للسنة الأولى بشكل خاص.
في الآونة الأخيرة، تم توسيع تركيز تتبع حالة الحوار من مجال واحد إلى مجالات متعددة.تتميز المهمة بالفتحات المشتركة بين المجالات.نظرا لأن السيناريو يحصل على مزيد من المعقدة، تصبح مشكلة خارج المفردات أيضا شارما.النماذج الحالية ليست مرضية لحل تحديات تكامل الأطباق بين المجالات ومشاكل خارج المفردات.لمعالجة المشكلة، نستكشف الدلالية الهرمية من علم الأطباق ويعزز العلاقة بين الفتحات ذات الاهتمام الهرمي الملثم.في مرحلة فك قيمة الدولة، نحل المشكلة خارج المفردات من خلال الجمع بين طريقة التوليد وطريقة الاستخراج معا.نقيم أداء نموذجنا على مجموعة بيانات تمثيلية، MultiWoz باللغة الإنجليزية والكنيسة في الصينية.تظهر النتائج أن طرازنا يجرض مكسب أداء كبير على طراز تتبع الدولة الحديثة الحالية وهو أكثر قوة لمشكلة خارج المفردات مقارنة بالطرق الأخرى.
تهدف استخراج العلاقات المفتوحة (Openre) إلى استخراج أنواع العلاقات الجديدة من Open-Domain Corpora، والذي يلعب دورا مهما في إكمال مخططات العلاقات لقواعد المعرفة (KBS). يلقي معظم طرق Openre بأنواع العلاقات المختلفة بمعزلات دون النظر في الاعتماد الهرمي. نقول أن OPETRE هو بطبيعته في اتصال وثيق مع التسلسلات الهرمية العلاقة. لإنشاء اتصالات ثنائية الاتجاه بين التسلسل الهرمي للفينت والعلاقة، نقترح مهمة استخراج العلاقات الهرمية المفتوحة وتقديم إطار رواية OHRE للمهمة. نقترح نماذج تدريبية تدريبية هرمية هرمية ديناميكية وتسلسل تدرس تدرس تدريسيا، لإدماج معلومات التسلسل الهرمي بشكل فعال في تمثيلات العلاقة لاستخراج العلاقات الأفضل أفضل. نقدم أيضا خوارزمية للتوسع التسلسل الهرمي من أعلى إلى أسفل لإضافة العلاقات المستخرجة إلى التسلسلات الهرمية الموجودة مع إمكانية الترجمة الترجمة الشاملة. تظهر تجارب شاملة أن OHRE تتفوق على النماذج الحديثة من خلال هامش كبير على كل من تجميع العلاقات والتوسع التسلسل الهرمي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا