اكتشاف المعروفة المجهولة: تحول المعرفة الضمنية في مجموعة البيانات إلى أمثلة تدريب واضحة للسؤال المرئي الرد


الملخص بالعربية

إن الإجابة على السؤال المرئي (VQA) تحديا ليس فقط لأن النموذج يتعين على النموذج التعامل مع معلومات متعددة الوسائط، ولكن أيضا لأنه من الصعب للغاية جمع أمثلة تدريبية كافية --- هناك الكثير من الأسئلة يمكن أن يسأل عن صورة. نتيجة لذلك، يمكن أن يؤدي نموذج VQA الذي تم تدريبه فقط على أمثلة مشروح عن الإنسان بسهولة إلى أن يناسب أساليب سؤال محددة أو محتويات الصورة التي يتم طرحها، مما يترك النموذج جاهل إلى حد كبير حول التنوع الشديد للأسئلة. تعالج الطرق الحالية هذه المشكلة في المقام الأول عن طريق إدخال مهمة مساعدة مثل التأريض البصري أو الاتساق الدائرية أو الدخل. في هذه الورقة، نأخذ نهج مختلف بشكل كبير. وجدنا أن العديد من المجهولين "إلى نموذج VQA المستفاد معروف بالفعل" في DataSet ضمنيا. على سبيل المثال، تكون الأسئلة التي تسأل عن نفس الكائن في صور مختلفة من المرجح؛ يوفر عدد الكائنات المكتشفة أو المشروح في صورة بالفعل الإجابة على عدد السؤال ""، حتى لو لم يتم تفجيح السؤال لهذه الصورة. بناء على هذه الأفكار، نقدم خط أنابيب تكبير البيانات بسيطة Simpleaug لتحويل هذه المعرفة المعروفة إلى أمثلة تدريبية ل VQA. نظظ أن هذه الأمثلة المعززة يمكن أن تحسن أداء نماذج VQA المستفادة، ليس فقط على مجموعة بيانات VQA-CP مع التحولات السابقة للغة ولكن أيضا على DataSet VQA V2 دون مثل هذه التحولات. تفتح طريقةنا كذلك الباب للاستفادة من الصور المسمى ضعيفة أو غير المسماة بطريقة مبدئية لتعزيز نماذج VQA. تتوفر كودنا والبيانات علنا ​​في https://github.com/heendung/simpleach.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث