النمذجة اللغوية المعقدة (MLM) هي واحدة من المهام الفرعية الرئيسية في محاكاة لغة الرؤية. في الإعداد عبر الوسائط، يتم ملثمين الرموز في الجملة بشكل عشوائي، والنموذج يتوقع أن تكون الرموز الممكنة التي أعطتها الصورة والنص. في هذه الورقة، نلاحظ العديد من عيوب MLM الرئيسية في هذا الإعداد. أولا، حيث تميل التسميات التوضيحية إلى أن تكون قصيرة، في ثلث الجمل لا يتم أخذ عينات من الجمل. ثانيا، غالبية الرموز الملثمين هي التوقف عن الكلمات وعلامات الترقيم، مما يؤدي إلى نقص في الاستخدام للصورة. إننا نحقق في مجموعة من استراتيجيات التقنيع البديلة المحددة لإعداد العرض المتعلق الذي يتناول هذه أوجه القصور، تهدف إلى توصيف أفضل من النص والصورة في التمثيل المستفاد. عند تدريب ما قبل التدريب على نموذج LXMERT، تتحسن استراتيجياتنا البديلة الخاصة بنا باستمرار عبر استراتيجية التقنيع الأصلية على ثلاثة مهام أسفل المصب، خاصة في إعدادات الموارد المنخفضة. علاوة على ذلك، يتفوق نهجنا قبل التدريب بشكل كبير على نموذج الأساس في مهمة التحقيق الفورية المصممة لاستنباط كائنات الصورة. تشير هذه النتائج وتحليلنا إلى أن طريقتنا تسمح باستفادة أفضل من بيانات التدريب.