ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين خوارزميات K-Means

Improve K-Means Algorithm

6704   9   215   0 ( 0 )
 تاريخ النشر 2014
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصنف خوارزمية K-Means الكائنات إلى عدد محدد مسبقا من العناقيد و هو K عنقود. و تتم عملية اختيار المراكز العنقودية في هذه الخوارزمية بشكل العشوائية، و يفضل أن تكون هذه المراكز بعيدة عن بعضها البعض قدر الإمكان. تؤثر نقطة البدء العشوائية على فعالية عملية التجميع و النتائج. و تعتمد عملية المقاربة المعنقدة على قيم المراكز الأولية بشكل رئيسي. نركّز في هذا البحث على طريقة اختيار مركز العنقود لتحسين أداء العنقدة في الخوارزمية K-Means كما نستخدم مراكز العناقيد الأولية و التي حصلنا عليها من البيانات المقسّمة على طول محور البيانات وفقا لأعلى فرق لتعيين مركز العنقود الأفضل.


ملخص البحث
تتناول هذه الورقة البحثية التي أعدها الباحث محمد مصطفى حجّوز، تحسين خوارزمية K-Means المستخدمة في عملية التنقيب في البيانات. مع تزايد حجم البيانات في مختلف المجالات، أصبح من الضروري إيجاد تقنيات جديدة للتعامل مع هذا الكم الهائل من البيانات. وتعتبر خوارزمية K-Means واحدة من أشهر خوارزميات التقسيم المعنقدة التي تهدف إلى تجميع الكائنات المتشابهة في عناقيد بناءً على خصائصها. تعتمد خوارزمية K-Means التقليدية على اختيار مراكز العناقيد بشكل عشوائي، مما يؤثر على فعالية عملية التجميع والنتائج. يركز البحث على تحسين أداء الخوارزمية من خلال تحسين طريقة اختيار مراكز العناقيد الأولية. يتم ذلك باستخدام مراكز العناقيد الأولية المستمدة من تقسيم البيانات على طول محور البيانات وفقًا لأعلى فرق. تتضمن الورقة خطوات مفصلة للخوارزمية التقليدية والمحسنة، بالإضافة إلى أمثلة توضيحية لعمل الخوارزميات. كما تم تقييم الخوارزمية المحسنة باستخدام مجموعة من البيانات المختلفة، وأظهرت النتائج أن الخوارزمية المحسنة تحتاج إلى عدد أقل من التكرارات والوقت مقارنة بالخوارزمية التقليدية. وتخلص الورقة إلى أن الخوارزمية المحسنة تقدم أداءً أفضل من الخوارزمية التقليدية، مع الحفاظ على نفس مستوى التعقيد الحسابي.
قراءة نقدية
دراسة نقدية: تعتبر الورقة البحثية خطوة مهمة في تحسين خوارزمية K-Means، ولكن هناك بعض النقاط التي يمكن مناقشتها. أولاً، على الرغم من أن الورقة تقدم تحسينًا واضحًا في أداء الخوارزمية، إلا أن التقييم يعتمد على مجموعة بيانات محددة، مما يثير التساؤل حول فعالية الخوارزمية المحسنة على مجموعات بيانات أخرى متنوعة. ثانيًا، لم تتناول الورقة بشكل كافٍ كيفية التعامل مع البيانات الفئوية أو غير العددية، وهو ما يمكن أن يكون تحديًا في تطبيقات العالم الحقيقي. ثالثًا، كان من الممكن تقديم تحليل أعمق حول تأثير النقاط الشاذة على أداء الخوارزمية المحسنة. أخيرًا، يمكن أن تكون هناك حاجة لمزيد من الدراسات المقارنة مع خوارزميات عنقدة أخرى لتحسين الفهم الشامل لأداء الخوارزمية المحسنة.
أسئلة حول البحث
  1. ما هي المشكلة الرئيسية التي تسعى الورقة إلى حلها؟

    تسعى الورقة إلى تحسين أداء خوارزمية K-Means من خلال تحسين طريقة اختيار مراكز العناقيد الأولية لتقليل العشوائية وزيادة دقة التجميع.

  2. كيف يتم اختيار مراكز العناقيد الأولية في الخوارزمية المحسنة؟

    يتم اختيار مراكز العناقيد الأولية في الخوارزمية المحسنة باستخدام مراكز العناقيد الأولية المستمدة من تقسيم البيانات على طول محور البيانات وفقًا لأعلى فرق.

  3. ما هي الفوائد الرئيسية للخوارزمية المحسنة مقارنة بالخوارزمية التقليدية؟

    الفوائد الرئيسية للخوارزمية المحسنة تشمل تقليل عدد التكرارات المطلوبة والوقت المنقضي، مما يؤدي إلى تحسين الكفاءة والأداء العام للخوارزمية.

  4. هل تناولت الورقة كيفية التعامل مع البيانات الفئوية أو غير العددية؟

    لم تتناول الورقة بشكل كافٍ كيفية التعامل مع البيانات الفئوية أو غير العددية، وهو ما يمكن أن يكون تحديًا في تطبيقات العالم الحقيقي.


المراجع المستخدمة
Dunham, M. H. 2003-Data Mining: Introductory and Advanced Topics. Prentice Hal Bazsalica, 328p
Hand,D. Mannila,H. Smyth,R. 2001- Principles of Data Mining, MIT Press, London, 285p. Algorithms,Indian,221p
Kaufman,L. Rousseeuw,P2010-Finding Groups in Data: an Introduction to Cluster Analysis. John,170p
Ng,R, Han.J-2008-Efficient and Effective Clustering Methods for Spatial Data Mining, Conf, 144p
Shi Yong, Zhang. Ge. 2011-Research on an improved algorithm for cluster analysis, International Conference on Consumer Electronics, Communications and Networks (CECNet), 601p
قيم البحث

اقرأ أيضاً

نقدم في هذا البحث خوارزمية جديدة لحل بعض المشاكل التي تعاني منها خوارزميات عنقدة البيانات كالK-Means. هذه الخوارزمية الجديدة قادرة على عنقدة مجموعة من البيانات بشكل منفرد دون الحاجة لخوارزميات عنقدة أخرى.
مع التطور الهائل في جميع المجالات العلمية و الاقتصادية و السياسية و غيرها ظهرت الحاجة لإيجاد طرق غير تقليدية للتعامل من خلالها مع البيانات بجميع أنماطها ( النصية و المرئية و الصوتية و غيرها ) والتي أصبحت ذات حجوم كبيرة جداً في هذه الأيام. فكان لابد م ن إيجاد طرق جديدة لاستنباط المعرفة و المعلومات المخبأة ضمن هذا الكم الهائل من البيانات كالاستعلام عن الزبائن الذين لديهم عادات شرائية متماثلة أو التوقعات المحتلمة لبيع سمعة معينة في إحدى المناطق الجغرافية و غيرها من الاستعلامات الاستنتاجية و التي تعتمد على تقنية التنقيب في البيانات. و تتم عملية التنقيب بعدة أساليب من أهمها أسلوب العنقدة (التجميع) Clustering و الذي يتم بعدة خوارزميات. سوف نرّكز في بحثنا هذا على استخدام طريقة مدروسة لإيجاد المراكز الابتدائية لخوارزمية K-Medoids التي تقوم على مبدأ تقسيم البيانات إلى عناقيد كل عنقود يحوي بيانات متماثمة يَسهل التعامل معها بدلاً من اختيارها بالشكل العشوائي الذي يؤدي بدوره لظهور نتائج مختلفة وبطئ في تنفيذ الخوارزمية .
نقدم في هذا البحث تعديل لخوارزمية عنقدة البيانات الMountain الضبابية, تمكنا من جعل هذه الخوارزمية تعمل بشكل آلي, و ذلك من خلال إيجاد طريقة لتقسيم الفضاء و تحديد قيم وسطاء الدخل و شرط التوقف آلياً بدلاً من إدخالها من قبل المستخدم.
بعد نجاح اهتمام DOT-Product في المحولات، تم اقتراح تقريب عديدة مؤخرا لمعالجة تعقيدها التربيعي فيما يتعلق بطول الإدخال. في حين أن هذه المتغيرات هي الذاكرة وتحسب كفاءة، فمن غير الممكن استخدامها مباشرة مع نماذج اللغة المدربة مسبقا مسبقا تدربت باستخدام ا هتمام الفانيليا، دون مرحلة ما قبل التدريب التصحيحية باهظة الثمن. في هذا العمل، نقترح تقريب بسيط ولكن دقيق للغاية لاهتمام الفانيليا. نقوم بمعالجة الاستعلامات في قطع، ولكل عملية استعلام، حساب أعلى الدرجات * K * فيما يتعلق بالمفاتيح. يوفر نهجنا عدة مزايا: (أ) استخدام ذاكرةه خطي في حجم الإدخال، على غرار متغيرات الانتباه الخطي، مثل أداء و RFA (B) هو استبدال انخفاض في انتباه الفانيليا الذي لا يتطلب أي تصحيحية -إجراء (ج) يمكن أن يؤدي أيضا إلى وفورات كبيرة في الذاكرة في طبقات الأعلاف إلى الأمام بعد إلقاءها في إطار القيمة المألوفة ذات القيمة الرئيسية. نحن نقيم جودة أعلى - * K * تقريب طبقات الاهتمام متعدد الأطراف على أساس الساحة الطويلة المدى، وللطبقات التغذية من T5 و unifectqa على مجموعات بيانات QA متعددة. نظرا لأن نهجنا يؤدي إلى الدقة التي تظل مما يقرب من انتباه الفانيليا في إكمال متعددة بما في ذلك التدريب من الصفر والضبط الناعم والاستدلال بالرصاص الصفر.
Jujeop هو نوع من التورية وسيلة فريدة من نوعها للمشجعين للتعبير عن حبهم لنجوم K-Pop، يتبعون باستخدام الكورية.واحدة من الخصائص الفريدة ل Jujeop هي استخدامها للتعبيرات المبالغ فيها لمصدر نجوم K-Pop، والتي تحتوي على الفكاهة أو تؤدي إلى الفكاهة.بناء على ه ذه الخصائص، يمكن فصل Jujeop إلى أربعة أنواع مميزة، مع تجاهلاتها المعجمية الخاصة بها: (1) كلمات تجزئة لإنشاء تطور، (2) هوليديون ومناسبي، (3) التكرار، و (4) هراء.وبالتالي، تحدد الدراسة الحالية أولا مفهوم Jujeop في الكورية، علامات 8.6k يدويا وتعليق التعليقات على واحد من أنواع عصير الأربعة.مع Corpus المعطاة المشروح، تقدم هذه الدراسة خصائص مميزة لتعليقات Jujeop مقارنة بالتعليقات الأخرى بمهمة التصنيف.علاوة على ذلك، مع نهج التجميع، اقترحنا التبعية الهيكلية داخل كل نوع خجويل.لقد صنعنا DataSet الخاص بنا للجمهور للبحث في المستقبل على تعبيرات Jujeop.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا