أظهرت نماذج الرؤية اللغوية المدربة مسبقا أداء رائعا حول مهمة الإجابة على السؤال المرئي (VQA). ومع ذلك، يتم تدريب معظم النماذج المدربة مسبقا من خلال النظر فقط في التعلم أحادي الأونلينغ، وخاصة اللغة الغنية بالموارد مثل اللغة الإنجليزية. تدريب هذه النماذج للكمات متعددة اللغات طلب موارد الحوسبة عالية ومجموعات بيانات الرؤية متعددة اللغات التي تعيق تطبيقها في الممارسة العملية. لتخفيف هذه التحديات، نقترح نهج تقطير المعرفة لتوسيع نموذج للرؤية باللغة الإنجليزية (المعلم) في نموذج متعدد اللغات ومزوج التعليمات البرمجية (طالبة). على عكس أساليب تقطير المعرفة الحالية، والتي تستخدم فقط الإخراج من الطبقة الأخيرة من شبكة المعلم للتقطير، يتعلم نموذج الطالب الخاص بنا وتقليد المعلم من طبقات متعددة الوسائط (تشفير اللغة والرؤية) بأهداف تقطير مصممة بشكل مناسب لاستخراج المعرفة الإضافية وبعد كما نقوم بإنشاء مجموعة بيانات VQA متعددة اللغات متعددة اللغات متعددة اللغات وخلطها في أحد عشر جهازا مختلفا للنظر في اللغات الهندية والأوروبية المتعددة. تظهر النتائج التجريبية والتحليل المتعمق فعالية نموذج VQA المقترح على نماذج الرؤية المدربة مسبقا في الرؤية المدربة مسبقا في أحد عشر من إعدادات لغة متنوعة.