Do you want to publish a course? Click here

Using differential equations for modeling performance of fault tolerance in parallel applications

استخدام المعادلات التفاضلية لنمذجة أداء التسامح مع الأعطال في التطبيقات المتوازية

1642   3   30   0 ( 0 )
 Publication date 2017
and research's language is العربية
 Created by Shamra Editor




Ask ChatGPT about the research

In this paper we present a study on the time cost added to the grid computing as a result of the use of a coordinated checkpoint / recovery fault tolerance protocol, we aim to find a mathematical model which determined the suitable time to save the checkpoints for application, to achieve a minimum finish time of parallel application in grid computing with faults and fault tolerance protocols, we have find this model by serial modeling to the goal errors, execution environment and the chosen fault tolerance protocol all that by Kolmogorov differential equations.


Artificial intelligence review:
Research summary
تتعرض معظم البيئات التفرعية الواسعة عالية الأداء لأنواع مختلفة من الأعطال التي تؤدي إلى انخفاض في جودة الوظيفة المطلوبة منها أو قد تصل أحياناً إلى توقفها عن العمل. لذلك تم تزويد هذه البيئات بآليات للتسامح مع الأعطال لتجاوز هذه الأعطال وتحقيق استمرارية عملها. في هذا البحث، نقدم دراسة حول الكلفة الزمنية المضافة إلى بيئة الحوسبة الشبكية نتيجة استخدام آلية تخزين/استرجاع متناسقة للتسامح مع الأعطال في هذه البيئة. نهدف من خلال هذه الدراسة إلى إيجاد نموذج رياضي يحدد الوقت الأنسب لحفظ نقاط التخزين للتطبيق بهدف تحقيق أقل زمن لانتهاء تنفيذ التطبيق المتوازي. تم ذلك عن طريق نمذجة تسلسلية باستخدام المعادلات التفاضلية لكل من الأعطال المدروسة وبيئة التنفيذ وأخيراً آلية التسامح مع الأعطال المختارة. تم استخدام نموذج ماركوف لتمثيل شكل العطل المدروس ومعادلات Kolmogorov التقدمية للتعبير عن احتمال تغيّر حالة المكون بين التوقف والعمل خلال الزمن. توصلنا من خلال هذه الدراسة إلى نموذج رياضي يحدد لنا زمن انتهاء تنفيذ التطبيق المتوازي بدون ومع آلية للتسامح مع الأعطال وذلك بمعرفة معاملات البيئة من حيث وثوقية الأجهزة والكلفة المتعلقة بتخزين نقطة الاستعادة وأيضاً معلومات متعلقة بخوارزمية جدولة نقاط الاستعادة. تم الاستنتاج بأن التقليل من كمية العمل المتوازي المطلوب إنجازه عند تقسيمه إلى أجزاء صغيرة بقدر الإمكان سيؤدي إلى انخفاض في زمن انتهاء تنفيذ التطبيق.
Critical review
دراسة نقدية: على الرغم من أن البحث قدم نموذجاً رياضياً شاملاً ومفصلاً لتحليل الكلفة الزمنية المضافة نتيجة استخدام آلية للتسامح مع الأعطال، إلا أن هناك بعض النقاط التي يمكن تحسينها. أولاً، لم يتم التطرق بشكل كافٍ إلى تأثير أنواع أخرى من الأعطال غير الأعطال المادية الدائمة مثل الأعطال المؤقتة أو الأعطال البرمجية، والتي قد تكون لها تأثيرات مختلفة على الأداء. ثانياً، النموذج الرياضي المستخدم يفترض أن معدلات الفشل والإصلاح ثابتة، وهو افتراض قد لا يكون دقيقاً في جميع الحالات العملية. ثالثاً، لم يتم تقديم محاكاة عملية للبيئة للتحقق من صحة النتائج النظرية، وهو ما يمكن أن يعزز من موثوقية الاستنتاجات. وأخيراً، يمكن أن يكون هناك اهتمام أكبر بتقديم حلول عملية لتقليل الكلفة الزمنية المضافة بدلاً من التركيز فقط على النمذجة الرياضية.
Questions related to the research
  1. ما هو الهدف الرئيسي من البحث؟

    الهدف الرئيسي من البحث هو إيجاد نموذج رياضي يحدد الوقت الأنسب لحفظ نقاط التخزين للتطبيق بهدف تحقيق أقل زمن لانتهاء تنفيذ التطبيق المتوازي في بيئة الحوسبة الشبكية مع وجود أعطال وآليات للتسامح معها.

  2. ما هي الأدوات الرياضية المستخدمة في البحث؟

    تم استخدام نموذج ماركوف لتمثيل شكل العطل المدروس ومعادلات Kolmogorov التقدمية للتعبير عن احتمال تغيّر حالة المكون بين التوقف والعمل خلال الزمن.

  3. ما هي الاستنتاجات الرئيسية التي توصل إليها البحث؟

    توصل البحث إلى أن التقليل من كمية العمل المتوازي المطلوب إنجازه عند تقسيمه إلى أجزاء صغيرة بقدر الإمكان سيؤدي إلى انخفاض في زمن انتهاء تنفيذ التطبيق، وأنه لا يمكن الاستغناء عن إضافة آلية للتسامح مع الأعطال لضمان انتهاء تنفيذ التطبيق عند حدوث عطل ما.

  4. ما هي النقاط التي يمكن تحسينها في البحث؟

    يمكن تحسين البحث من خلال التطرق إلى تأثير أنواع أخرى من الأعطال غير الأعطال المادية الدائمة، وتقديم محاكاة عملية للبيئة للتحقق من صحة النتائج النظرية، وتقديم حلول عملية لتقليل الكلفة الزمنية المضافة بدلاً من التركيز فقط على النمذجة الرياضية.


References used
AHMED W., HASAN O., and TAHAR S., 2016-Formal Dependability Modeling and Analysis: A Survey. CICM: International Conference on Intelligent Computer Mathematics, PP: 132-147, doi: 10.1007/978-3-319- 42547-4-10
BUNTINA D., COTI C., HERAULT T., LEMARINIER P., PILARD L., REZMERITA A., RODRIGUEZ E., and CAPPELLO F., 2008-Blocking vs. non-blocking coordinated checkpointing for large scale fault tolerant MPI Protocols. in Future Generation Computer Systems, V. 24, Issue 1, PP: 73–84
DABROWSKI C., 2009-Reliability in grid computing systems. in journal Concurrency and Computation: Practice & Experience – A Special Issue from the Open Grid Forum, V. 21, Issue 8, PP: 927-959
rate research

Read More

In this paper, we introduce a continuous mathematical model to optimize the compromise between the overhead of fault tolerance mechanism and the faults impacts in the environment of execution. The fault tolerance mechanism considered in this rese arch is a coordinated checkpoint/recovery mechanism and the study based on stochastic model of different performance critics of parallel application on parallel and distributed environment.
In this research, We introduce two probabilistic mechanisms to certificate parallel applications on distribute architecture supposing that there are no oracles on which we depend on certification, in addition to introducing cost model of two mecha nisms and compare them. In this research, we are interested in parallel applications, which are represented by data-flow graph that is built dynamically during the execution and which are executed in a wide distributed heterogeneous and dynamic environment and these applications use the principle of work stealing to distribute the tasks among the processors.
Overlay multicast (Application-Level Multicast (ALM)) constructs a multicast delivery tree among end hosts. Unlike traditional IP multicast where the internal tree nodes are dedicated routers which are relatively stable and do not leave the multicast tree voluntarily, the non-leaf nodes in the overlay tree are free end hosts which can join/leave the overlay at will, or even crash without notification. So, the leaving node can leave suddenly and cannot give its descendants (and the Rendez-vous Point (RP)) the time to prepare the recovering (the reconnection) of the overlay tree, and so there is a need to trigger a rearrangement process in which each one of its descendants should rejoin the overlay tree. In this case, all of its downstream nodes are partitioned from the overlay tree and cannot get the multicast data any more. These dynamic characteristics cause the instability of the overlay tree, which can significantly impact the user. A key challenge in constructing an efficient and resilient ALM protocol is to provide fast data recovery when overlay node failures partition the data delivery paths. In this paper, we analyze the performance of the ALM tree recovery solutions using different metrics.
We introduce an auto adaptive strategy enables to write a parallel algorithm adapts to the number of available resources at allocated parallel environment to execute the parallel program. The parallel applications we are studying which are represe nted by data-flow graph which built dynamically during the execution. The new suggested strategy is based on coupling of a sequential algorithm and a parallel one and relies on the principle of work stealing in the tasks scheduling. We offer a study of the complexity of the adaptive algorithm and analyze its performance on processors and compare it with a performance of a classic parallel algorithm.
comments
Fetching comments Fetching comments
Sign in to be able to follow your search criteria
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا