نهج فهم اللغة الحديثة في الرؤية اعتماد محول متعدد الوسائط قبل التدريب المسبق و Finetuning النموذج.يتعلم العمل المسبق تمثيلات الرموز النصية والسمات المرئية مع آليات الانهيارات المتقاطعة ويلتقط المحاذاة على أساس إشارات غير مباشرة.في هذا العمل، نقترح تعزيز آلية المحاذاة من خلال دمج هياكل الرسم البياني المشهد للصورة كجسر بين الطرطرين، والتعلم بأهداف جديدة للتناقض.في دراستنا الأولية حول الاسئلة المرئية التركيبية الصعبة الإجابة على المهمة، نظهر النهج المقترح يحقق نتائج محسنة، مما يدل على الإمكانات لتعزيز فهم لغة الرؤية.