إطار تعلم التعزيز متعدد الوكلات التعاونية لتحليل إجراء الحوار


الملخص بالعربية

تقوم معظم طرق التعلم في مجال التعزيز لسياسة الحوار، قم بتدريب تعلم وكيل مركزي يختار إجراء مشترك محدد مسبقا اسم النطاق ونوع النية واسم الفتحة. يعاني وكيل الحوار المركزي من متطلبات العديد من متطلبات تفاعل المستخدمين لعمل المستخدمين بسبب مساحة العمل الكبيرة. إضافة إلى ذلك، فإن تصميم الإجراءات المتسلسلة شاقة للمهندسين وربما كافح مع حالات الحافة. لحل هذه المشاكل، نقوم بنمط مشكلة تعلم سياسة الحوار مع إطار جديد متعدد الوكلاء، حيث يقود كل جزء من الإجراء من قبل وكيل مختلف. الإطار يقلل من تكاليف العمل لقوالب الإجراءات ويقلل من حجم مساحة العمل لكل وكيل. علاوة على ذلك، نقوم بتخفيف المشكلة غير الثابتة الناجمة عن ديناميات البيئة المتغيرة كتطور سياسات الوكلاء من خلال إدخال عملية تحسين مشتركة تجعل الوكلاء يمكنهم تبادل معلومات سياستهم. في الوقت نفسه، يتم دمج آلية إعادة تشغيل تجربة مخزنة مستقلة لتقليل الاعتماد بين تدرجات العينات لتحسين كفاءة التدريب. يتم إثبات فعالية الإطار المقترح في بيئة متعددة المجالات مع كل من تقييم محاكي المستخدم والتقييم البشري.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث