مجردة مؤخرا، اكتسبت نماذج محولات متعددة الوسائط شعبية لأن أدائها على المهام المصب التي تشير إلى أنهم يتعلمون تمثيلات غنية بصرية لغوية.مع التركيز على مهام استرجاع الصور صفرية، ندرس ثلاثة عوامل مهمة يمكن أن تؤثر على جودة التمثيلات المستفادة: محاولات البيانات، آلية الاهتمام، وظائف الخسائر.من خلال نماذج الاحتياطية على ست مجموعات بيانات، نلاحظ أن ضوضاء البيانات وتشابه لغة له مهمتنا المصب لدينا هي مؤشرات مهمة لأداء النموذج.من خلال التحليل المعماري، نتعلم أن النماذج ذات آلية اهتمام متعددة الوسائط يمكن أن تفوق النماذج العميقة مع آليات الاهتمام الخاصة بالطريقة.أخيرا، نظهر أن الخسائر الناجحة للتناقض المستخدمة في أدب التعلم الإشراف على الذات لا تسفر عن مكاسب أداء مماثلة عند استخدامها في محولات متعددة الوسائط.