Impffect أيضا يستحق المكافأة: النمذجة متعددة المستويات ومتسلسلة لإدارة حوار أفضل

نشر في جمعية اللغويات الحاسوبية ACL بتاريخ 2021 في مجال الذكاء الاصناعي والبحث باللغة English تحميل البحث

الملخص بالعربية

بالنسبة لأنظمة الحوار الموجهة نحو المهام، قم بتدريب وحدة إدارة حوار التعزيز المستندة (RL) تعاني من كفاءة عينة منخفضة وسرعة تقارب بطيئة بسبب المكافآت المتفرعة في RL.لحل هذه المشكلة، اقترح العديد من الاستراتيجيات لإعطاء المكافآت المناسبة عند التدريب RL، لكن مكافآتها تفتقر إلى التفسير ولا يمكنها تقديرها بدقة توزيع أزواج عمل الدولة في الحوار الحقيقية.في هذه الورقة، نقترح نهج نمذجة مكافأة متعددة المستويات يعكس مكافأة في التسلسل الهرمي من ثلاثة مستويات: المجال والفعال والفتحة.بناء على تعلم التعزيز العسكري العكسي، يمكن لنموذج المكافآت المصمم لدينا توفير إشارات مكافأة أكثر دقة وتفسير لأزواج عمل الدولة.تشير التقييمات الواسعة إلى أن نهجنا يمكن تطبيقه على مجموعة واسعة من أنظمة الحوار التعبير في التعلم وتحسن بشكل كبير من كل الأداء وسرعة التقارب.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث