نقترح سهولة، أداة تشخيصية بسيطة للإجابة على السؤال المرئي (VQA) الذي يحدد صعوبة الصورة، عينة السؤال.يعتمد سهولة على نمط الإجابات التي قدمها المعلقون المتعددين على سؤال معين.على وجه الخصوص، تعتبر جوانبين من الإجابات: (1) انتروبيا؛(2) المحتوى الدلالي.أولا، نثبت صحة تشخيصنا لتحديد عينات سهلة / من الصعب لنماذج VQA الحديثة.ثانيا، نعرض أن هذه السهولة يمكن استخدامها بنجاح لتحديد العينات الأكثر إعلانية للتدريب / ضبط الدقيقة.بشكل حاسم، يتم استخدام المعلومات فقط المتوفرة بسهولة في أي مجموعة بيانات VQA لحساب درجاتها.
We propose EASE, a simple diagnostic tool for Visual Question Answering (VQA) which quantifies the difficulty of an image, question sample. EASE is based on the pattern of answers provided by multiple annotators to a given question. In particular, it considers two aspects of the answers: (i) their Entropy; (ii) their Semantic content. First, we prove the validity of our diagnostic to identify samples that are easy/hard for state-of-art VQA models. Second, we show that EASE can be successfully used to select the most-informative samples for training/fine-tuning. Crucially, only information that is readily available in any VQA dataset is used to compute its scores.
المراجع المستخدمة
https://aclanthology.org/
في التعليم، أصبحت أسئلة الاختبار أداة مهمة لتقييم معرفة الطلاب.ومع ذلك، فإن إعداد هذه الأسئلة يدويا هو مهمة مملة، وبالتالي تم اقتراح توليد السؤال التلقائي كديل ممكن.حتى الآن، ركزت الغالبية العظمى من الأبحاث على توليد نص الأسئلة، والاعتماد على سؤال حو
Minivqa هو دفتر ملاحظات Jupiter لبناء مسابقة VQA مصممة خصيصا لطلابك.ينشئ المورد جميع الموارد اللازمة لإنشاء مسابقة الفصل الدراسي التي تشارك وتلهم طلابك على منصة Kaggle المجانية والخدمة الذاتية.مسابقات inclass تجعل آلة التعلم المتعة!
يقارن تقييم نماذج الرد على الأسئلة التوضيحية حول التوقعات النموذجية. ومع ذلك، اعتبارا من اليوم، فإن هذه المقارنة تعتمد في الغالب معجمية، وبالتالي تفتقد الإجابات التي لا تحتوي على تداخل جذري ولكن لا تزال مماثلة متشابهة دلالة، وبالتالي علاج الإجابات ال
على الرغم من إظهار قيم واعدة للتطبيقات المصب، فإن توليد السؤال والإجابة معا يتم استكشافها. في هذه الورقة، نقدم مهمة جديدة تستهدف توليد زوج الإجابة على الأسئلة من الصور المرئية. لا يتطلب عدم توليد أزواج حول الإجابات المتنوعة فقط ولكن أيضا الحفاظ على ا
القدرة على توليد محاذاة كلمة دقيقة مفيدة لمجموعة متنوعة من المهام.في حين أن محاذاة الكلمة الإحصائية يمكن أن تعمل بشكل جيد، خاصة عندما تكون بيانات التدريب الموازية وفيرة، فقد تبين مؤخرا نماذج تضمين متعددة اللغات نتائج جيدة في سيناريوهات غير مخالفة.نقي