في المدارس الابتدائية، تستخدم كتب الأطفال، وكذلك في تطبيقات تعلم اللغة الحديثة، واستراتيجيات تعليمية متعددة الوسائط مثل الرسوم التوضيحية للمصطلحات والعبارات لدعم فهم القراءة.أيضا، تشير العديد من الدراسات في علم النفس التعليمي إلى أن دمج المعلومات العابطة العابرة ستحسن من فهم القراءة.نحن ندعي أن محولات الحالة متعددة الوسائط، والتي يمكن استخدامها في سياق متعلم لغوي لتحسين القراءة البشرية، ستؤدي بشكل سيئ بسبب البيانات النصية القصيرة والبسيطة نسبيا والتي يتم تدريب تلك النماذج معها.لإثبات فرضياتنا، جمعنا مجموعة بيانات جديدة متعددة الوسائط على أساس البيانات من Wikipedia.في تحليل بيانات متعمقة، نسلط الضوء على الاختلافات بين مجموعة البيانات الخاصة بنا ومجموعات البيانات الشائعة الأخرى.بالإضافة إلى ذلك، نقوم بتقييم العديد من المحولات متعددة الوسائط متعددة الأحوال على استرجاع الصور النصية على مجموعة بياناتنا وتحليل نتائجها الضئيلة، والتي تحقق من مطالباتنا.