MTTT: تعلم تعويضات التفاعل المتعدد الوسائط من المحولات ثلاثية التريلين


الملخص بالعربية

في السؤال المرئي الرد على (VQA)، تركز الأساليب الطيفة الموجودة على التفاعل بين الصور والأسئلة. نتيجة لذلك، يتم تقسيم الإجابات إلى الأسئلة أو المستخدمة كملصقات فقط للتصنيف. من ناحية أخرى، تستخدم نماذج Trilinear مثل نموذج CTI بكفاءة معلومات فيما بين الاعتراضات بين الإجابات والأسئلة والصور، مع تجاهل معلومات المشرفة داخل العملية. مستوحاة من هذه الملاحظة، نقترح إطارا جديدا للتفاعل Trilinear يسمى Mirtt (تعلم تشكيل التفاعل المتعدد الوسائط من محولات Trilinear)، مما يشتمل على آليات الاهتمام لالتقاط علاقات الوسائط المشتركة بين الوسائط والتعديل. علاوة على ذلك، نقوم بتصميم سير عمل من مرحلتين حيث يقلل نموذج Silinear النموذج الحر، مشكلة VQA مفتوحة العضوية في مشكلة VQA متعددة الخيارات. علاوة على ذلك، للحصول على تمثيلات دقيقة وجميلة متعددة الاستخدامات، فإننا قرب ما قبل تدريب Mirtt مع التنبؤ اللغوي الملثمين. تقوم طريقةنا بتحقيق الأداء الحديث في مهمة Visual7W Task و VQA-1.0 متعددة الخيارات ومفتوحة خطوط الأساس Silinear على مجموعات بيانات VQA-2.0 و TDIUC و GQA.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث