ترغب بنشر مسار تعليمي؟ اضغط هنا

تحدي واحد في تقييم نماذج الإجابة عن السؤال المرئي (VQA) في إعداد التكيف عبر DataSet هو أن التحولات التوزيع متعددة الوسائط متعددة، مما يجعل من الصعب تحديد ما إذا كانت التحولات في ميزات مرئية أو لغة تلعب دورا رئيسيا. في هذه الورقة، نقترح إطارا شبه أوتو ماتيكي لإنشاء تحولات محددة من خلال إدخال وحدة نمطية لجيل الإجابات مرئية يمكن السيطرة عليها (VQAG) قادرة على توليد أزواج للإجابة على الأسئلة ذات الصلة والتنوع مع نمط البيانات المطلوب. نستخدمها لإنشاء crossvqa، وهي مجموعة من تقسيم الاختبار لتقييم مجموعات بيانات VQA2، VizWiz، وفتح الصور المفتوحة. نحن نقدم تحليلا لمجموعات البيانات التي تم إنشاؤها وإظهار فائدتها باستخدامها لتقييم العديد من أنظمة VQA الحديثة. اكتشاف واحد مهم هو أن التحولات المرئية في VQA عبر DataSet يهم أكثر من التحولات اللغوية. على نطاق أوسع، نقدم إطارا قابل للتطوير لتقييم الجهاز بشكل منهجي مع التدخل البشري القليل.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا