إن أنظمة الإجابة على السؤال المرئي (VQA) بشكل متزايد بشكل متزايد في مجموعة متنوعة من المهام، ويمكن استخدام هذه التكنولوجيا لمساعدة الأشخاص المكفوفين والمشاعر جزئيا. للقيام بذلك، يجب ألا تكون ردود النظام دقيقة فحسب، بل يمكن استخدامها. من الضروري أيضا تصميم التكنولوجيات المساعدة مع التركيز على: (1) الخصوصية، حيث قد تكون الكاميرا التقاط بريد مستخدم أو زجاجات الأدوية أو المعلومات الحساسة الأخرى؛ (2) الشفافية، بحيث يمكن تفسير سلوك النظام وموثوق به من قبل المستخدمين؛ (3) التحكم في التحكم، لتكييف النظام لمجال معين أو مجموعة مستخدمين. لذلك قدمنا بإطار عمل VQA محادثة، يسمى AYE-SAAC، مع مراعاة هذه الأهداف. على وجه التحديد، منحنا AYE-SAAC القدرة على الإجابة على الأسئلة البصرية في المطبخ، وهي منطقة صعبة بشكل خاص للأشخاص الذين يعانون من ضعف البصر. يمكن لنظامنا الآن الإجابة على أسئلة حول الكمية والتحديد والثقة والنظام فيما يتعلق ب 299 كائنات مطبخ. إن أسئلة حول العلاقات المكانية بين هذه الكائنات مفيدة بشكل خاص للأشخاص الذين يعانون من ضعف البصر، وإخراج نظامنا المزيد من الإجابات غير القابلة للاستخدام من أحدث أنظمة VQA المناسبة للفن.
Visual Question Answering (VQA) systems are increasingly adept at a variety of tasks, and this technology can be used to assist blind and partially sighted people. To do this, the system's responses must not only be accurate, but usable. It is also vital for assistive technologies to be designed with a focus on: (1) privacy, as the camera may capture a user's mail, medication bottles, or other sensitive information; (2) transparency, so that the system's behaviour can be explained and trusted by users; and (3) controllability, to tailor the system for a particular domain or user group. We have therefore extended a conversational VQA framework, called Aye-saac, with these objectives in mind. Specifically, we gave Aye-saac the ability to answer visual questions in the kitchen, a particularly challenging area for visually impaired people. Our system can now answer questions about quantity, positioning, and system confidence in regards to 299 kitchen objects. Questions about the spatial relations between these objects are particularly helpful to visually impaired people, and our system output more usable answers than other state of the art end-to-end VQA systems.
المراجع المستخدمة