عندما يتواصل الوكلاء الذكيون بإنجاز الأهداف المشتركة، كيف تشكل هذه الأهداف لغة الوكلاء؟ندرس ديناميات التعلم في سياسات اللغة الكامنة (LTPs)، حيث يولد وكلاء المعلمون الأوصاف الفرعية باللغة الطبيعية ووكلاء المنفذين تعيين هذه الأوصاف إلى إجراءات منخفضة المستوى.يمكن LLP حل مشاكل تعليم التعزيز الطويلة في الأفق وتقديم نموذج غني لدراسة استخدام اللغة الموجهة نحو المهام.لكن العمل السابق قد وجد أن التدريب LLP عرضة للانجراف الدلالي (استخدام الرسائل بطرق غير متناسقة مع معاني اللغة الطبيعية الأصلية).هنا، نوضح نظري وتجريبيا أن التدريب المتعدد هو مضاد فعال لهذه المشكلة: نثبت أن التدريب المتعدد يتزيل الانجراف الدلالي في عائلة مدرسية جيدا من ألعاب الإشارات، وإظهار أن التدريب المتعدد في LT LT LTWural في لعبة استراتيجية معقدة تقللالانجراف وبين تحسين كفاءة عينة.