مع التعلم Landit العديد المصنعة، يمكن تدريب النماذج بناء على ردود فعل إيجابية وسالبة وردت للتنبؤات التاريخية، دون الحاجة إلى البيانات المسمى.ومع ذلك، غالبا ما تكون هذه الملاحظات متوفرة في أنظمة الحوار في العالم الحقيقي، ومع ذلك، فإن الهندسة المعمارية المعيارية المستخدمة عادة في أنظمة واسعة النطاق يمنع التطبيق المباشر لهذه الخوارزميات.في هذه الورقة، ندرس مشكلة إريقات التغذية المرتدة التي تنشأ عند استخدام التعلم Landit Adderfactual لفهم اللغة المنطوقة متعددة المجالات.نقدم إعداد تجريبي لمحاكاة المشكلة في مجموعات البيانات العامة على نطاق صغير، اقترح طرق الإسناد المستوحاة من التعزيز التعزيز متعدد الوكلات وتقييمها ضد خطوط خطوط خطوط خطوط خطوط خطوط طويلة.نجد أنه أثناء استخدام الملاحظات الشاملة مباشرة يؤدي إلى أداء كارثي، يمكن أن تسمح طرقنا الإسناد المقترحة لدينا نماذج تنافسية للتدريب من ملاحظات المستخدم.