غالبا ما تحتاج أنظمة الحوار الموجهة نحو المهام (TOD) في كثير من الأحيان إلى صياغة استعلامات قاعدة المعارف (KB) المقابلة من نية المستخدم واستخدام نتائج الاستعلام لتوليد ردود النظام. تتطلب الأساليب الموجودة مجموعات بيانات حوار لتعليق هذه الاستعلامات KB بشكل صريح --- يمكن أن تكون التعليقات التوضيحية تستغرق وقتا طويلا ومكلفة. ردا على ذلك، نحدد المشكلات الجديدة للتنبؤ ب QB Query وتدريب وكيل الحوار، دون التعليق التوضيحي لاستعلام KB الصريح. بالنسبة للتنبؤ بالاستعلام، نقترح خط أساسي لتعليم التعلم (RL)، والذي يكافئ جيل هذه الاستفسارات التي تغطي نتائج KB التي تغطي الكيانات المذكورة في مربع حوار لاحق. يكشف التحليل الإضافي أن الارتباط بين سمات الاستعلام في KB يمكن أن يخلط بشكل كبير من تحسين سياسة الذاكرة المعزز (MAPO)، وهي حالة موجودة من وكيل الفن rl. لمعالجة هذا، نحسن خط الأساس Mapo مع تعديلات بسيطة ولكنها مهمة مناسبة لمهمتنا. لتدريب نظام TOD الكامل لإعدادنا، نقترح نهج خط أنابيب: إنه يتوقع بشكل مستقل عند إجراء استعلام KB (تنبئ موضع الاستعلام)، ثم يتوقع استعلام KB على الوظيفة المتوقعة (تنبئ الاستعلام)، ويستخدم نتائج استعلام متوقع في مربع حوار لاحق (تنبئ الاستجابة التالي). بشكل عام، يقترح عملنا الحلول الأولى لمشكلةنا الجديدة، وتحليلنا يسلط الضوء على التحديات البحثية في تدريب أنظمة TOM دون التعليق التوضيحي الاستعلام.