بالنسبة لأنظمة الحوار الموجهة نحو المهام، قم بتدريب وحدة إدارة حوار التعزيز المستندة (RL) تعاني من كفاءة عينة منخفضة وسرعة تقارب بطيئة بسبب المكافآت المتفرعة في RL.لحل هذه المشكلة، اقترح العديد من الاستراتيجيات لإعطاء المكافآت المناسبة عند التدريب RL، لكن مكافآتها تفتقر إلى التفسير ولا يمكنها تقديرها بدقة توزيع أزواج عمل الدولة في الحوار الحقيقية.في هذه الورقة، نقترح نهج نمذجة مكافأة متعددة المستويات يعكس مكافأة في التسلسل الهرمي من ثلاثة مستويات: المجال والفعال والفتحة.بناء على تعلم التعزيز العسكري العكسي، يمكن لنموذج المكافآت المصمم لدينا توفير إشارات مكافأة أكثر دقة وتفسير لأزواج عمل الدولة.تشير التقييمات الواسعة إلى أن نهجنا يمكن تطبيقه على مجموعة واسعة من أنظمة الحوار التعبير في التعلم وتحسن بشكل كبير من كل الأداء وسرعة التقارب.