برزت الألعاب القائمة على النصوص (TBGS) كخطط مهم لتعزيز التعزيز (RL) في مجال اللغة الطبيعية.الأساليب السابقة باستخدام سياسات الإجراءات القائم على LSTM غير قابلة لإرسالها وغالبا ما تتجاوزت ألعاب التدريب التي تظهر أداء ضعيف لألعاب الاختبار غير المرئية.نقدم سياسة الإجراءات الرمزية للبيئات النصية (لائحة)، والتي تتعلم قواعد سياسة العمل القابلة للتفسير من التجريدات الرمزية للملاحظات النصية لتحسين التعميم.نحن نبحث عن طريقة لتعلم القاعدة الرمزية المتفوقة في نهاية إلى نهاية وإظهار أن هذه السياسات الرمزية تتفوق على الأساليب السابقة من أحدث الأحوال الفنية في RL القائمة على الرسائل النصية لبيئة جامع العملة من 5-10x ألعاب تدريب أقل.بالإضافة إلى ذلك، توفر طريقتنا قواعد سياسية مفهومة للإنسان والتي يمكن التحقق منها بسهولة من أجل الاتساق المنطقي ويمكن تصحيحها بسهولة.