يندرج البحث في مجال التسامح مع الأعطال في البيئات التفرعية الواسعة مثل
الحوسبة الشبكية (grid) و عناقيد الحواسيب (cluster) بهدف إيجاد أفضل الطرق
للتعامل مع الأخطاء المتعقلة بتعطل أحد الأجهزة الموجودة في البيئة أو الناتجة عن
انقطاع شبكة الاتصال و ذلك لضمان استمرارية عمل التطبيقات المتوازية المنفذة ضمن هذه
البيئة في ظل وجود الأعطال.
قمنا في البحث بدراسة لنموذج البيئة التفرعية المعتمد و التطبيقات المتوازية المنفذة ضمنه،
ثم قدمنا آلية تخزين / استرجاع تمكننا من ضمان استمرارية التطبيق في حال ظهور أي
عطل باستخدام التمثيل المجرد لحالة التطبيق على المعالجات و المتمثل بمخطط تدفق
البيانات (macro dataflow) للتطبيقات التي تستخدم خوارزمية سرقة العمل ( work
stealing ) لتوزيع المهام بين المعالجات و تُنفذ في بيئات تفرعية واسعة غير متجانسة
و ديناميكية، و ذلك بكلفة بسيطة مضافة لكلفة التنفيذ المتوازي نتيجة حفظ جزء من العمل
خلال التنفيذ الطبيعي (fault-free execution) فضلاً عن ذلك تم تقديم نموذج
رياضي لحساب التعقيد الزمني (الكلفة) لهذه الآلية المقترحة .
The study is researching the fault tolerance in the large distributed
environments such as grid computing and clusters of computers in
order to find the most effective ways to deal with the errors
associated with the crash one of the devices in the environment or
network disconnection to ensure the continuity of the application in
the presence of the faults.In this paper we study a model of the
distributed environment and the parallel applications within it. Then
we provide a checkpoint mechanism that will enable us to ensure
continuity of the work used by a virtual representation of the
application (macro dataflow) and suitable for the applications
which uses work stealing algorithm to distribute the tasks which
are implemented in heterogeneous and dynamic environment.
This mechanism will add a simple cost to the cost of parallel
execution as a result of keeping part of the work during fault-free
execution. The study also provides a mathematical model to
calculate the time complexity i.e. the cost of this proposed
mechanism.
Artificial intelligence review:
Research summary
يتناول البحث موضوع التسامح مع الأعطال في البيئات التفرعية الواسعة مثل الحوسبة الشبكية وعناقيد الحواسيب، بهدف إيجاد أفضل الطرق للتعامل مع الأخطاء الناتجة عن تعطل الأجهزة أو انقطاع الشبكة لضمان استمرارية التطبيقات المتوازية. يقدم البحث نموذجاً لتخزين واسترجاع البيانات يعتمد على خوارزمية سرقة العمل لتوزيع المهام بين المعالجات، ويستخدم التمثيل المجرد لحالة التطبيق على المعالجات. يتميز هذا النموذج بكلفة إضافية بسيطة نتيجة حفظ جزء من العمل خلال التنفيذ الطبيعي. كما يقدم البحث نموذجاً رياضياً لحساب التعقيد الزمني لهذه الآلية المقترحة. يهدف البحث إلى إيجاد آلية فعالة للتسامح مع الأعطال في بيئات حسابية موزعة وغير متجانسة وديناميكية، مع التركيز على تقليل كلفة التخزين خلال التنفيذ الطبيعي وضمان استمرارية التطبيق في حال حدوث عطل. يعتمد النموذج على تخزين جزء من معلومات التطبيق خلال التنفيذ الطبيعي واسترجاعها لاحقاً في حال وقوع عطل، مع استخدام نقاط تحقق دورية لحفظ حالة التطبيق على المعالج الرئيسي. يتم تحليل كلفة البروتوكول المقترح من خلال دراسة الكلفة الإضافية الناتجة عن حفظ المهام المسروقة وزمن تنفيذ الخوارزمية المتوازية على عدد غير محدود من المعالجات. يستنتج البحث أن الكلفة المضافة إلى زمن التنفيذ المتوازي باستخدام آلية التخزين المقترحة تكون محدودة بعدد المهام المسروقة، وأن الخسارة الناتجة عن الأعطال لن تكون كارثية وتؤدي إلى توقف التطبيق.
Critical review
دراسة نقدية: يقدم البحث مساهمة قيمة في مجال التسامح مع الأعطال في البيئات التفرعية الواسعة، ويعرض نموذجاً مبتكراً يعتمد على خوارزمية سرقة العمل. ومع ذلك، يمكن توجيه بعض النقد البناء للبحث. أولاً، قد يكون من المفيد تقديم تجارب عملية أكثر تفصيلاً لتقييم فعالية النموذج المقترح في بيئات مختلفة وتحت ظروف متنوعة من الأعطال. ثانياً، يمكن تحسين الشرح المتعلق بالنموذج الرياضي لحساب التعقيد الزمني لجعله أكثر وضوحاً وسهولة للفهم. ثالثاً، يمكن أن يكون هناك تحليل أعمق لتأثير الكلفة الإضافية على الأداء العام للتطبيقات المتوازية، خاصة في البيئات ذات الأحمال العالية. وأخيراً، يمكن أن يكون هناك توضيح أكثر لكيفية التعامل مع الأعطال المتعددة والمتزامنة في النظام، وتأثير ذلك على استمرارية التطبيق وكفاءة النموذج المقترح.
Questions related to the research
-
ما هو الهدف الرئيسي من البحث؟
الهدف الرئيسي هو إيجاد آلية فعالة للتسامح مع الأعطال في بيئات حسابية موزعة وغير متجانسة وديناميكية للتطبيقات المتوازية، باستخدام خوارزمية سرقة العمل ومخطط تدفق البيانات.
-
ما هي الآلية المقترحة للتعامل مع الأعطال؟
الآلية المقترحة تعتمد على تخزين جزء من معلومات التطبيق خلال التنفيذ الطبيعي واسترجاعها لاحقاً في حال وقوع عطل، باستخدام نقاط تحقق دورية لحفظ حالة التطبيق على المعالج الرئيسي.
-
كيف يتم توزيع المهام بين المعالجات في النموذج المقترح؟
يتم توزيع المهام بين المعالجات باستخدام خوارزمية سرقة العمل، حيث يقوم أي معالج خامل بسرقة مهمة جاهزة من معالج آخر نشط.
-
ما هي الكلفة الإضافية الناتجة عن استخدام النموذج المقترح؟
الكلفة الإضافية تكون محدودة بعدد المهام المسروقة في التطبيق، وهي ناتجة عن حفظ المهام المسروقة خلال التنفيذ الطبيعي وزمن وصول المهمة الواحدة إلى الذاكرة المستقرة.
References used
AVIZIENIS A, LAPRIE JC and RANDALL B, 2001, Fundamental Concepts of Dependability, in University of New castle upon Tyne, Computing Science
BALA A, CHANA I, 2012, Fault tolerance-challenges, techniques and implementation in cloud computing, in IJCSI Interna tional Journal of Computer Science Issues,Vol. 9, No 1
FRIGO M, LEISERSON CE, and RANDALL KH, 1998 ,The implementation of the Cilk-5 multithreaded language,inProc. ACM SIGPLAN conference on Programming language design and implementation,Pages 212 - 223