نقترح سهولة، أداة تشخيصية بسيطة للإجابة على السؤال المرئي (VQA) الذي يحدد صعوبة الصورة، عينة السؤال.يعتمد سهولة على نمط الإجابات التي قدمها المعلقون المتعددين على سؤال معين.على وجه الخصوص، تعتبر جوانبين من الإجابات: (1) انتروبيا؛(2) المحتوى الدلالي.أولا، نثبت صحة تشخيصنا لتحديد عينات سهلة / من الصعب لنماذج VQA الحديثة.ثانيا، نعرض أن هذه السهولة يمكن استخدامها بنجاح لتحديد العينات الأكثر إعلانية للتدريب / ضبط الدقيقة.بشكل حاسم، يتم استخدام المعلومات فقط المتوفرة بسهولة في أي مجموعة بيانات VQA لحساب درجاتها.