التعزيز غير متصل التعلم من ردود فعل إنسانية في مهام تسلسل العالم الحقيقي


الملخص بالعربية

يمكن جمع كميات كبيرة من سجلات التفاعل من أنظمة NLP التي يتم نشرها في العالم الحقيقي.كيف يمكن الاستفادة من هذه الثروة من المعلومات؟يعد استخدام سجلات التفاعل هذه في إعداد تعليم التعزيز (RL) غير متصل نهجا واعدا.ومع ذلك، نظرا لطبيعة مهام NLP وقيود أنظمة الإنتاج، تنشأ سلسلة من التحديات.نقدم نظرة عامة موجزة عن هذه التحديات ومناقشة الحلول الممكنة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث