Crossvqa: توليد المعايير بشكل متقن لاختبار نظام VQA بشكل منهجي


الملخص بالعربية

تحدي واحد في تقييم نماذج الإجابة عن السؤال المرئي (VQA) في إعداد التكيف عبر DataSet هو أن التحولات التوزيع متعددة الوسائط متعددة، مما يجعل من الصعب تحديد ما إذا كانت التحولات في ميزات مرئية أو لغة تلعب دورا رئيسيا. في هذه الورقة، نقترح إطارا شبه أوتوماتيكي لإنشاء تحولات محددة من خلال إدخال وحدة نمطية لجيل الإجابات مرئية يمكن السيطرة عليها (VQAG) قادرة على توليد أزواج للإجابة على الأسئلة ذات الصلة والتنوع مع نمط البيانات المطلوب. نستخدمها لإنشاء crossvqa، وهي مجموعة من تقسيم الاختبار لتقييم مجموعات بيانات VQA2، VizWiz، وفتح الصور المفتوحة. نحن نقدم تحليلا لمجموعات البيانات التي تم إنشاؤها وإظهار فائدتها باستخدامها لتقييم العديد من أنظمة VQA الحديثة. اكتشاف واحد مهم هو أن التحولات المرئية في VQA عبر DataSet يهم أكثر من التحولات اللغوية. على نطاق أوسع، نقدم إطارا قابل للتطوير لتقييم الجهاز بشكل منهجي مع التدخل البشري القليل.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث