يتوقع التنبؤ بالكلام التالي في الحوار على ترميز نص مدخلات المستخدمين لتوليد استجابة مناسبة وذات صلة في النهج التي يحركها البيانات. على الرغم من أن الجودة الدلالية والمنظمات الأساسية للغة الناتجة يتم تقييمها، إلا أنه غالبا ما لا، لا يتم تقييم التمثيل المشفوع للإدخال. نظرا لأن تمثيل التشفير ضروري للتنبؤ بالاستجابة المناسبة، فإن تقييم تمثيل التشفير يمثل مشكلة تحديا ولكنها مهمة. في هذا العمل، نعرض أن تقييم النص الذي تم إنشاؤه من خلال المقاييس البشرية أو التلقائية لا يكفي لتقييم سلامة فهم لغة نماذج الحوار، وإلى هذه الغاية، اقتراح مجموعة من مهام التحقيق لتقييم تمثيل التشفير لتشفيات لغة مختلفة شائعة المستخدمة في طرازات الحوار. من التجارب، نلاحظ أن بعض مهام التحقيق هي أسهل وبعضها أصعب حتى يتم تعلم هياكل النموذج المعقدة. ومن خلال التجارب التي نلاحظها أن البندسة المعتمدة من RNN لها أداء أقل على المقاييس التلقائية على جيل النص من طراز المحول ولكن أداء أفضل من طراز المحول في مهام التحقيق التي تشير إلى أن RNNs قد تحافظ على معلومات المهمة أفضل من المحولات.