نقدم في هذا البحث دراسة حول الكلفة الزمنية المضافة إلى بيئة الحوسبة الشبكية نتيجة
استخدام آلية تخزين / استرجاع متناسقة للتسامح مع الأعطال في هذه البيئة، لنصل من
خلال هذه الدراسة إلى نموذج رياضي يحدد لنا الوقت الأنسب لحفظ نقاط التخزين
للتطبيق بهدف تحقيق أقل زمن لانتهاء تنفيذ التطبيق المتوازي، و كان ذلك عن طريق
نمذجة تسلسلية باستخدام المعادلات التفاضلية لكل من الأعطال المدروسة و بيئة التنفيذ
و أخيرا آلية التسامح مع الأعطال المختارة.
In this paper we present a study on the time cost
added to the grid computing as a result of the use of a
coordinated checkpoint / recovery fault tolerance protocol, we aim
to find a mathematical model which determined the suitable time
to save the checkpoints for application, to achieve a minimum
finish time of parallel application in grid computing with faults and
fault tolerance protocols, we have find this model by serial
modeling to the goal errors, execution environment and the
chosen fault tolerance protocol all that by Kolmogorov differential
equations.
Artificial intelligence review:
Research summary
تتعرض معظم البيئات التفرعية الواسعة عالية الأداء لأنواع مختلفة من الأعطال التي تؤدي إلى انخفاض في جودة الوظيفة المطلوبة منها أو قد تصل أحياناً إلى توقفها عن العمل. لذلك تم تزويد هذه البيئات بآليات للتسامح مع الأعطال لتجاوز هذه الأعطال وتحقيق استمرارية عملها. في هذا البحث، نقدم دراسة حول الكلفة الزمنية المضافة إلى بيئة الحوسبة الشبكية نتيجة استخدام آلية تخزين/استرجاع متناسقة للتسامح مع الأعطال في هذه البيئة. نهدف من خلال هذه الدراسة إلى إيجاد نموذج رياضي يحدد الوقت الأنسب لحفظ نقاط التخزين للتطبيق بهدف تحقيق أقل زمن لانتهاء تنفيذ التطبيق المتوازي. تم ذلك عن طريق نمذجة تسلسلية باستخدام المعادلات التفاضلية لكل من الأعطال المدروسة وبيئة التنفيذ وأخيراً آلية التسامح مع الأعطال المختارة. تم استخدام نموذج ماركوف لتمثيل شكل العطل المدروس ومعادلات Kolmogorov التقدمية للتعبير عن احتمال تغيّر حالة المكون بين التوقف والعمل خلال الزمن. توصلنا من خلال هذه الدراسة إلى نموذج رياضي يحدد لنا زمن انتهاء تنفيذ التطبيق المتوازي بدون ومع آلية للتسامح مع الأعطال وذلك بمعرفة معاملات البيئة من حيث وثوقية الأجهزة والكلفة المتعلقة بتخزين نقطة الاستعادة وأيضاً معلومات متعلقة بخوارزمية جدولة نقاط الاستعادة. تم الاستنتاج بأن التقليل من كمية العمل المتوازي المطلوب إنجازه عند تقسيمه إلى أجزاء صغيرة بقدر الإمكان سيؤدي إلى انخفاض في زمن انتهاء تنفيذ التطبيق.
Critical review
دراسة نقدية: على الرغم من أن البحث قدم نموذجاً رياضياً شاملاً ومفصلاً لتحليل الكلفة الزمنية المضافة نتيجة استخدام آلية للتسامح مع الأعطال، إلا أن هناك بعض النقاط التي يمكن تحسينها. أولاً، لم يتم التطرق بشكل كافٍ إلى تأثير أنواع أخرى من الأعطال غير الأعطال المادية الدائمة مثل الأعطال المؤقتة أو الأعطال البرمجية، والتي قد تكون لها تأثيرات مختلفة على الأداء. ثانياً، النموذج الرياضي المستخدم يفترض أن معدلات الفشل والإصلاح ثابتة، وهو افتراض قد لا يكون دقيقاً في جميع الحالات العملية. ثالثاً، لم يتم تقديم محاكاة عملية للبيئة للتحقق من صحة النتائج النظرية، وهو ما يمكن أن يعزز من موثوقية الاستنتاجات. وأخيراً، يمكن أن يكون هناك اهتمام أكبر بتقديم حلول عملية لتقليل الكلفة الزمنية المضافة بدلاً من التركيز فقط على النمذجة الرياضية.
Questions related to the research
-
ما هو الهدف الرئيسي من البحث؟
الهدف الرئيسي من البحث هو إيجاد نموذج رياضي يحدد الوقت الأنسب لحفظ نقاط التخزين للتطبيق بهدف تحقيق أقل زمن لانتهاء تنفيذ التطبيق المتوازي في بيئة الحوسبة الشبكية مع وجود أعطال وآليات للتسامح معها.
-
ما هي الأدوات الرياضية المستخدمة في البحث؟
تم استخدام نموذج ماركوف لتمثيل شكل العطل المدروس ومعادلات Kolmogorov التقدمية للتعبير عن احتمال تغيّر حالة المكون بين التوقف والعمل خلال الزمن.
-
ما هي الاستنتاجات الرئيسية التي توصل إليها البحث؟
توصل البحث إلى أن التقليل من كمية العمل المتوازي المطلوب إنجازه عند تقسيمه إلى أجزاء صغيرة بقدر الإمكان سيؤدي إلى انخفاض في زمن انتهاء تنفيذ التطبيق، وأنه لا يمكن الاستغناء عن إضافة آلية للتسامح مع الأعطال لضمان انتهاء تنفيذ التطبيق عند حدوث عطل ما.
-
ما هي النقاط التي يمكن تحسينها في البحث؟
يمكن تحسين البحث من خلال التطرق إلى تأثير أنواع أخرى من الأعطال غير الأعطال المادية الدائمة، وتقديم محاكاة عملية للبيئة للتحقق من صحة النتائج النظرية، وتقديم حلول عملية لتقليل الكلفة الزمنية المضافة بدلاً من التركيز فقط على النمذجة الرياضية.
References used
AHMED W., HASAN O., and TAHAR S., 2016-Formal Dependability Modeling and Analysis: A Survey. CICM: International Conference on Intelligent Computer Mathematics, PP: 132-147, doi: 10.1007/978-3-319- 42547-4-10
BUNTINA D., COTI C., HERAULT T., LEMARINIER P., PILARD L., REZMERITA A., RODRIGUEZ E., and CAPPELLO F., 2008-Blocking vs. non-blocking coordinated checkpointing for large scale fault tolerant MPI Protocols. in Future Generation Computer Systems, V. 24, Issue 1, PP: 73–84
DABROWSKI C., 2009-Reliability in grid computing systems. in journal Concurrency and Computation: Practice & Experience – A Special Issue from the Open Grid Forum, V. 21, Issue 8, PP: 927-959
In this paper, we introduce a continuous mathematical model to
optimize the compromise between the overhead of fault tolerance
mechanism and the faults impacts in the environment of
execution. The fault tolerance mechanism considered in this
rese
In this research, We introduce two probabilistic mechanisms to
certificate parallel applications on distribute architecture supposing
that there are no oracles on which we depend on certification, in
addition to introducing cost model of two mecha
In this work, we present programming solutions for some nonlinear partial differential equations, which are the advection equation, the third-order KdV
equations, and a family of Burgers' equations.
Overlay multicast (Application-Level Multicast (ALM)) constructs a multicast delivery tree among end hosts. Unlike traditional IP multicast where the internal tree nodes are dedicated routers which are relatively stable and do not leave the multicast
We introduce an auto adaptive strategy enables to write a parallel
algorithm adapts to the number of available resources at allocated
parallel environment to execute the parallel program. The parallel
applications we are studying which are represe