ترغب بنشر مسار تعليمي؟ اضغط هنا

إن الإجابة على السؤال المرئي (VQA) تحديا ليس فقط لأن النموذج يتعين على النموذج التعامل مع معلومات متعددة الوسائط، ولكن أيضا لأنه من الصعب للغاية جمع أمثلة تدريبية كافية --- هناك الكثير من الأسئلة يمكن أن يسأل عن صورة. نتيجة لذلك، يمكن أن يؤدي نموذج V QA الذي تم تدريبه فقط على أمثلة مشروح عن الإنسان بسهولة إلى أن يناسب أساليب سؤال محددة أو محتويات الصورة التي يتم طرحها، مما يترك النموذج جاهل إلى حد كبير حول التنوع الشديد للأسئلة. تعالج الطرق الحالية هذه المشكلة في المقام الأول عن طريق إدخال مهمة مساعدة مثل التأريض البصري أو الاتساق الدائرية أو الدخل. في هذه الورقة، نأخذ نهج مختلف بشكل كبير. وجدنا أن العديد من المجهولين "إلى نموذج VQA المستفاد معروف بالفعل" في DataSet ضمنيا. على سبيل المثال، تكون الأسئلة التي تسأل عن نفس الكائن في صور مختلفة من المرجح؛ يوفر عدد الكائنات المكتشفة أو المشروح في صورة بالفعل الإجابة على عدد السؤال ""، حتى لو لم يتم تفجيح السؤال لهذه الصورة. بناء على هذه الأفكار، نقدم خط أنابيب تكبير البيانات بسيطة Simpleaug لتحويل هذه المعرفة المعروفة إلى أمثلة تدريبية ل VQA. نظظ أن هذه الأمثلة المعززة يمكن أن تحسن أداء نماذج VQA المستفادة، ليس فقط على مجموعة بيانات VQA-CP مع التحولات السابقة للغة ولكن أيضا على DataSet VQA V2 دون مثل هذه التحولات. تفتح طريقةنا كذلك الباب للاستفادة من الصور المسمى ضعيفة أو غير المسماة بطريقة مبدئية لتعزيز نماذج VQA. تتوفر كودنا والبيانات علنا ​​في https://github.com/heendung/simpleach.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا