تحدي واحد في تقييم نماذج الإجابة عن السؤال المرئي (VQA) في إعداد التكيف عبر DataSet هو أن التحولات التوزيع متعددة الوسائط متعددة، مما يجعل من الصعب تحديد ما إذا كانت التحولات في ميزات مرئية أو لغة تلعب دورا رئيسيا. في هذه الورقة، نقترح إطارا شبه أوتوماتيكي لإنشاء تحولات محددة من خلال إدخال وحدة نمطية لجيل الإجابات مرئية يمكن السيطرة عليها (VQAG) قادرة على توليد أزواج للإجابة على الأسئلة ذات الصلة والتنوع مع نمط البيانات المطلوب. نستخدمها لإنشاء crossvqa، وهي مجموعة من تقسيم الاختبار لتقييم مجموعات بيانات VQA2، VizWiz، وفتح الصور المفتوحة. نحن نقدم تحليلا لمجموعات البيانات التي تم إنشاؤها وإظهار فائدتها باستخدامها لتقييم العديد من أنظمة VQA الحديثة. اكتشاف واحد مهم هو أن التحولات المرئية في VQA عبر DataSet يهم أكثر من التحولات اللغوية. على نطاق أوسع، نقدم إطارا قابل للتطوير لتقييم الجهاز بشكل منهجي مع التدخل البشري القليل.
One challenge in evaluating visual question answering (VQA) models in the cross-dataset adaptation setting is that the distribution shifts are multi-modal, making it difficult to identify if it is the shifts in visual or language features that play a key role. In this paper, we propose a semi-automatic framework for generating disentangled shifts by introducing a controllable visual question-answer generation (VQAG) module that is capable of generating highly-relevant and diverse question-answer pairs with the desired dataset style. We use it to create CrossVQA, a collection of test splits for assessing VQA generalization based on the VQA2, VizWiz, and Open Images datasets. We provide an analysis of our generated datasets and demonstrate its utility by using them to evaluate several state-of-the-art VQA systems. One important finding is that the visual shifts in cross-dataset VQA matter more than the language shifts. More broadly, we present a scalable framework for systematically evaluating the machine with little human intervention.
المراجع المستخدمة
https://aclanthology.org/
نقترح سهولة، أداة تشخيصية بسيطة للإجابة على السؤال المرئي (VQA) الذي يحدد صعوبة الصورة، عينة السؤال.يعتمد سهولة على نمط الإجابات التي قدمها المعلقون المتعددين على سؤال معين.على وجه الخصوص، تعتبر جوانبين من الإجابات: (1) انتروبيا؛(2) المحتوى الدلالي.أ
Minivqa هو دفتر ملاحظات Jupiter لبناء مسابقة VQA مصممة خصيصا لطلابك.ينشئ المورد جميع الموارد اللازمة لإنشاء مسابقة الفصل الدراسي التي تشارك وتلهم طلابك على منصة Kaggle المجانية والخدمة الذاتية.مسابقات inclass تجعل آلة التعلم المتعة!
على الرغم من أن نماذج التدريب المسبق قد حققت نجاحا كبيرا في توليد الحوار، إلا أن أدائها ينخفض بشكل كبير عندما يحتوي المدخلات على كيان لا يظهر في مجموعات بيانات ما قبل التدريب والضبط (كيان غير مرئي). لمعالجة هذه المشكلة، تستفيد الأساليب الحالية لقاع
يعرف التوحد بأنه أحد الاضطرابات النمائية الشاملة يتسم بقصور نوعي في مهارات التواصل والانتباه ومهارات التفاعل الاجتماعي
يبدأ التفكير الاختلافي من بعض الملاحظات ويهدف إلى إيجاد التفسير الأكثر معقولا لهذه الملاحظات. لأداء الاختطاف، غالبا ما يستخدم البشر من الاستدلالات الزمنية والسببية، ومعرفة كيف يمكن أن يؤدي بعض الوضع الافتراضي إلى نتائج مختلفة. يقدم هذا العمل الدراسة