محولات الدلالة المحاذاة متعددة الوسائط للرؤية - اللغت: دراسة أولية على Visual QA


الملخص بالعربية

نهج فهم اللغة الحديثة في الرؤية اعتماد محول متعدد الوسائط قبل التدريب المسبق و Finetuning النموذج.يتعلم العمل المسبق تمثيلات الرموز النصية والسمات المرئية مع آليات الانهيارات المتقاطعة ويلتقط المحاذاة على أساس إشارات غير مباشرة.في هذا العمل، نقترح تعزيز آلية المحاذاة من خلال دمج هياكل الرسم البياني المشهد للصورة كجسر بين الطرطرين، والتعلم بأهداف جديدة للتناقض.في دراستنا الأولية حول الاسئلة المرئية التركيبية الصعبة الإجابة على المهمة، نظهر النهج المقترح يحقق نتائج محسنة، مما يدل على الإمكانات لتعزيز فهم لغة الرؤية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث