يمكن استخدام الألعاب القائمة على النصوص لتطوير وكلاء نص موجه نحو المهام لإنجاز المهام ذات التعليمات اللغوية رفيعة المستوى، والتي لها تطبيقات محتملة في المجالات مثل تفاعل الإنسان الروبوت. بالنظر إلى تعليمات نصية، يستخدم تعلم التعزيز عادة لتدريب الوكلاء لإكمال المهمة المقصودة بسبب راحتها في سياسات التعلم تلقائيا. ومع ذلك، بسبب مساحة كبيرة من الإجراءات النصية للكبار، تعلم شبكة السياسة التي تنشئ كلمة عمل من Word مع تعلم التعزيز أمر صعب. تظهر أعمال البحث الحديثة أن التعلم التقليد يوفر طريقة فعالة لتدريب شبكة السياسة القائمة على الجيل. ومع ذلك، فإن الوكلاء المدربين مع التعلم المقلم يصعب إتقان مجموعة واسعة من أنواع المهام أو المهارات، ومن الصعب عليهم التعميم أيضا مع البيئات الجديدة. في هذه الورقة، نقترح طريقة تعزز التعزيز التيلة لتدريب وكلاء النص من خلال التعلم إلى الاستكشاف. على وجه الخصوص، يستكشف وكيل النص أولا البيئة لجمع المعلومات الخاصة بالفصل، ثم تتكيف مع سياسة التنفيذ لحل المهمة مع هذه المعلومات. على ALFWorld المتاحة للجمهور، أجرينا دراسة مقارنة مع التعلم التقليد وإظهار تفوق طريقنا.