يوفر التعلم العميق التعلم نهجا واعدا للألعاب القائمة على النصوص في دراسة التواصل الطبيعي باللغة الطبيعية بين البشر والوكلاء الاصطناعي.ومع ذلك، لا يزال التعميم يمثل تحديا كبيرا حيث يعتمد الوكلاء بشكل خطير على تعقيد ومجموعة متنوعة من المهام التدريبية.في هذه الورقة، نتعلم هذه المشكلة عن طريق إدخال إطار هرمي مبني على وكيل RL المعلق الرسم البياني المعلق.في المستوى العالي، يتم تنفيذ سياسة META لتحلل اللعبة بأكملها في مجموعة من المهام الفرعية المحددة بواسطة أهداف نصية، وحدد أحدها بناء على KG.ثم يتم تنفيذ سياسة فرعية في المستوى المنخفض لإجراء تعلم التعزيز المكيف للأهداف.نقوم بإجراء تجارب على الألعاب ذات مستويات صعوبة مختلفة وإظهار أن الطريقة المقترحة تتمتع بالتعميمات المواتية.