Optimization of the Linear Systems with Unknown Dynamics Using Intelligent Operations Research Techniques

تحقيق أمثليّة الأنظمة الخطية بحركيات غير معلومة باستخدام تقنيات بحوث العمليات الذكية

 Publication date 2016
  fields Mathematics
and research's language is العربية
This paper presents a method for finding online adaptive optimal controllers for continuous-time linear systems without knowing the system dynamical matrices. The proposed method employs one of Intelligent Operations Research Techniques, this technique is the adaptive dynamic programming, to iteratively solve the algebraic Riccati equation using the online information of state and input, without requiring the a priori knowledge of the system dynamics. In addition, all iterations can be conducted by using repeatedly the same state and input information on some fixed time intervals. A practical online algorithm is developed in this paper, and is applied to the controller design for a turbocharged diesel engine with exhaust gas recirculation.

Research summary
تقدم هذه الورقة طريقة لإيجاد متحكمات تكيّفية مثلى للأنظمة الخطية مستمرة الزمن دون معرفة مسبقة بمصفوفات حركيات النظام. تعتمد الطريقة المقترحة على تقنية البرمجة الديناميكية التكيفية، والتي تدمج بين بحوث العمليات الذكية والشبكات العصبية. يتم حل معادلة ريكاتي الجبرية بشكل تكراري باستخدام معلومات الحالة والدخل التي تُجمع عبر الزمن. تم تطبيق الخوارزمية على تصميم متحكم لمحرك ديزل نفاث مع إعادة تدوير غاز العادم، وأظهرت النتائج كفاءة الطريقة في تحقيق التحكم الأمثل دون الحاجة إلى معرفة مسبقة بمصفوفات النظام.
Critical review
تُعتبر هذه الورقة خطوة مهمة في مجال التحكم التكيّفي للأنظمة الخطية، حيث تقدم حلاً لمشكلة عدم معرفة حركيات النظام. ومع ذلك، يمكن الإشارة إلى بعض النقاط التي قد تحتاج إلى مزيد من البحث والتطوير. على سبيل المثال، قد تكون الطريقة المقترحة بطيئة في التعلّم خاصةً للأنظمة كبيرة الأبعاد، مما قد يتطلب تحسينات في خوارزميات التكرار لتسريع عملية التعلّم. بالإضافة إلى ذلك، قد يكون من المفيد دراسة تأثير التشويش الاستكشافي بشكل أعمق لضمان استقرار النظام في جميع الحالات.
Questions related to the research
  1. ما هي التقنية الأساسية المستخدمة في هذه الورقة لإيجاد متحكمات تكيّفية مثلى؟

    التقنية الأساسية المستخدمة هي البرمجة الديناميكية التكيفية.

  2. ما هو الهدف الرئيسي من هذه الورقة؟

    الهدف الرئيسي هو تطوير خوارزمية برمجة ديناميكية تكيّفية خالية من المعرفة المسبقة بحركيات النظام.

  3. ما هو التطبيق العملي الذي تم استخدامه لاختبار الخوارزمية المقترحة؟

    تم استخدام الخوارزمية لتصميم متحكم لمحرك ديزل نفاث مع إعادة تدوير غاز العادم.

  4. ما هي التحديات المحتملة التي قد تواجه الطريقة المقترحة؟

    من التحديات المحتملة بطء عملية التعلّم خاصةً للأنظمة كبيرة الأبعاد، والحاجة إلى دراسة أعمق لتأثير التشويش الاستكشافي لضمان استقرار النظام.

References used
Al-Tamimi, A., Lewis, F. L., & Abu-Khalaf, M. (2007). Model-free Q-learning designs for linear discrete-time zero-sum games with application to H-infinity control. Automatica, 43(3), 473–481
(Baird, L.C.III. (1994). Reinforcement learning in continuous time: advantage updating. In Proceedings of IEEE international conference on neural networks. (pp.2448–2453
Bhasin, S., Sharma, N., Patre, P., & Dixon, W. E. (2011). Asymptotic tracking by a reinforcement learning-based adaptive critic controller. Journal of Control Theory and Applications, 9(3), 400–409
