إن الإجابة على السؤال المرئي (VQA) تحديا ليس فقط لأن النموذج يتعين على النموذج التعامل مع معلومات متعددة الوسائط، ولكن أيضا لأنه من الصعب للغاية جمع أمثلة تدريبية كافية --- هناك الكثير من الأسئلة يمكن أن يسأل عن صورة. نتيجة لذلك، يمكن أن يؤدي نموذج VQA الذي تم تدريبه فقط على أمثلة مشروح عن الإنسان بسهولة إلى أن يناسب أساليب سؤال محددة أو محتويات الصورة التي يتم طرحها، مما يترك النموذج جاهل إلى حد كبير حول التنوع الشديد للأسئلة. تعالج الطرق الحالية هذه المشكلة في المقام الأول عن طريق إدخال مهمة مساعدة مثل التأريض البصري أو الاتساق الدائرية أو الدخل. في هذه الورقة، نأخذ نهج مختلف بشكل كبير. وجدنا أن العديد من المجهولين "إلى نموذج VQA المستفاد معروف بالفعل" في DataSet ضمنيا. على سبيل المثال، تكون الأسئلة التي تسأل عن نفس الكائن في صور مختلفة من المرجح؛ يوفر عدد الكائنات المكتشفة أو المشروح في صورة بالفعل الإجابة على عدد السؤال ""، حتى لو لم يتم تفجيح السؤال لهذه الصورة. بناء على هذه الأفكار، نقدم خط أنابيب تكبير البيانات بسيطة Simpleaug لتحويل هذه المعرفة المعروفة إلى أمثلة تدريبية ل VQA. نظظ أن هذه الأمثلة المعززة يمكن أن تحسن أداء نماذج VQA المستفادة، ليس فقط على مجموعة بيانات VQA-CP مع التحولات السابقة للغة ولكن أيضا على DataSet VQA V2 دون مثل هذه التحولات. تفتح طريقةنا كذلك الباب للاستفادة من الصور المسمى ضعيفة أو غير المسماة بطريقة مبدئية لتعزيز نماذج VQA. تتوفر كودنا والبيانات علنا في https://github.com/heendung/simpleach.
Visual question answering (VQA) is challenging not only because the model has to handle multi-modal information, but also because it is just so hard to collect sufficient training examples --- there are too many questions one can ask about an image. As a result, a VQA model trained solely on human-annotated examples could easily over-fit specific question styles or image contents that are being asked, leaving the model largely ignorant about the sheer diversity of questions. Existing methods address this issue primarily by introducing an auxiliary task such as visual grounding, cycle consistency, or debiasing. In this paper, we take a drastically different approach. We found that many of the unknowns'' to the learned VQA model are indeed known'' in the dataset implicitly. For instance, questions asking about the same object in different images are likely paraphrases; the number of detected or annotated objects in an image already provides the answer to the how many'' question, even if the question has not been annotated for that image. Building upon these insights, we present a simple data augmentation pipeline SimpleAug to turn this known'' knowledge into training examples for VQA. We show that these augmented examples can notably improve the learned VQA models' performance, not only on the VQA-CP dataset with language prior shifts but also on the VQA v2 dataset without such shifts. Our method further opens up the door to leverage weakly-labeled or unlabeled images in a principled way to enhance VQA models. Our code and data are publicly available at https://github.com/heendung/simpleAUG.
المراجع المستخدمة
https://aclanthology.org/
ركزت أبحاث NLP باللغة العبرية إلى حد كبير على التورفولوجيا وبناء جملة، حيث تتوفر مجموعات البيانات المشروحة الغنية بروح التبعيات العالمية.ومع ذلك، تعد مجموعات البيانات الدلالية في العرض القصير، مما يعوق السلف الحاسم في تطوير تكنولوجيا NLP باللغة العبر
أحدثت النماذج المدربة (E2E) مؤخرا (E2E) لصالح الإجابة على الرسوم البيانية المعرفة (KGQA) نتائج واعدة تستخدم فقط مجموعة بيانات خاضعة للإشراف.ومع ذلك، يتم تدريب هذه النماذج وتقييمها في وضع يتم فيه توفير كيانات سؤال مشروح يدوية للنموذج، مما يترك المهمة
مهارات التفكير العددي ضرورية للإجابة على الأسئلة المعقدة (CQA) على النص.يتطلب opertaions بما في ذلك العد والمقارنة والإضافة والطرح.يتبع نهج ناجح في CQA على النص، وشبكات الوحدات النمطية العصبية (NMNS)، تتبع نموذج المبرمج ومترجم البرامج النمطية النمطية
الإجابة على الأسئلة الأساسية للمعرفة (KBQA) هي الإجابة على أسئلة اللغة الطبيعية المطروحة على قواعد المعرفة (KBS).هذه الأهداف الورقية في تمكين نماذج KBQA القائمة على IR مع قدرة المنطق العددي للإجابة على أسئلة مقيدة ترتيبية.التحدي الرئيسي هو عدم وجود ش
أدت طرازات اللغة الكبيرة المدربة مسبقا (PLMS) إلى نجاح كبير في مهام الإجابة على الأسئلة المختلفة (QA) في أزياء نهاية إلى نهاية.ومع ذلك، تم إيلاء القليل من الاهتمام وفقا لمعرفة المعرفة المنطقية لتمييز مهام ضمان الجودة هذه.في هذا العمل، اقترحنا تصنيف ا