عادة ما تعتمد نماذج المحادثة المعرضين على وحدة تحديد / استرجاع وحدة نمطية ووحدة جيل، تدربت بشكل منفصل أو في وقت واحد، مع أو دون الوصول إلى خيار معرفة ذهبي. مع إدخال النماذج الكبيرة المدربة مسبقا مسبقا، أصبح جزء الاختيار والجول أكثر وأكثر متشابكا، وتحول التركيز نحو تعزيز دمج المعرفة (من مصادر متعددة) بدلا من محاولة اختيار أفضل خيار المعرفة. ومع ذلك، تعتمد هذه الأساليب على ملصقات المعرفة و / أو المسترد الكثيف منفصل لأفضل أدائها. في هذا العمل، ندرس قدرات الاختيار غير المزروعة من النماذج الإدارية المدربة مسبقا (مثل BART) وإظهار أنه بإضافة وحدة نمطية للدرجات والكبر بين التشفير والكشف، فهي قادرة على تعلم اختيار المعرفة المناسبة من خلال تقليل اللغة فقدان النمذجة (أي دون الوصول إلى ملصقات المعرفة). تدربت على هذا النحو، نموذجنا - K-Mine - يظهر اختيار تنافسي وأداء جيل من النماذج التي تستفيد من ملصقات المعرفة و / أو المسترد الكثيف المنفصل.