ترغب بنشر مسار تعليمي؟ اضغط هنا

Crossvqa: توليد المعايير بشكل متقن لاختبار نظام VQA بشكل منهجي

CrossVQA: Scalably Generating Benchmarks for Systematically Testing VQA Generalization

320   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحدي واحد في تقييم نماذج الإجابة عن السؤال المرئي (VQA) في إعداد التكيف عبر DataSet هو أن التحولات التوزيع متعددة الوسائط متعددة، مما يجعل من الصعب تحديد ما إذا كانت التحولات في ميزات مرئية أو لغة تلعب دورا رئيسيا. في هذه الورقة، نقترح إطارا شبه أوتوماتيكي لإنشاء تحولات محددة من خلال إدخال وحدة نمطية لجيل الإجابات مرئية يمكن السيطرة عليها (VQAG) قادرة على توليد أزواج للإجابة على الأسئلة ذات الصلة والتنوع مع نمط البيانات المطلوب. نستخدمها لإنشاء crossvqa، وهي مجموعة من تقسيم الاختبار لتقييم مجموعات بيانات VQA2، VizWiz، وفتح الصور المفتوحة. نحن نقدم تحليلا لمجموعات البيانات التي تم إنشاؤها وإظهار فائدتها باستخدامها لتقييم العديد من أنظمة VQA الحديثة. اكتشاف واحد مهم هو أن التحولات المرئية في VQA عبر DataSet يهم أكثر من التحولات اللغوية. على نطاق أوسع، نقدم إطارا قابل للتطوير لتقييم الجهاز بشكل منهجي مع التدخل البشري القليل.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح سهولة، أداة تشخيصية بسيطة للإجابة على السؤال المرئي (VQA) الذي يحدد صعوبة الصورة، عينة السؤال.يعتمد سهولة على نمط الإجابات التي قدمها المعلقون المتعددين على سؤال معين.على وجه الخصوص، تعتبر جوانبين من الإجابات: (1) انتروبيا؛(2) المحتوى الدلالي.أ ولا، نثبت صحة تشخيصنا لتحديد عينات سهلة / من الصعب لنماذج VQA الحديثة.ثانيا، نعرض أن هذه السهولة يمكن استخدامها بنجاح لتحديد العينات الأكثر إعلانية للتدريب / ضبط الدقيقة.بشكل حاسم، يتم استخدام المعلومات فقط المتوفرة بسهولة في أي مجموعة بيانات VQA لحساب درجاتها.
Minivqa هو دفتر ملاحظات Jupiter لبناء مسابقة VQA مصممة خصيصا لطلابك.ينشئ المورد جميع الموارد اللازمة لإنشاء مسابقة الفصل الدراسي التي تشارك وتلهم طلابك على منصة Kaggle المجانية والخدمة الذاتية.مسابقات inclass تجعل آلة التعلم المتعة!
على الرغم من أن نماذج التدريب المسبق قد حققت نجاحا كبيرا في توليد الحوار، إلا أن أدائها ينخفض ​​بشكل كبير عندما يحتوي المدخلات على كيان لا يظهر في مجموعات بيانات ما قبل التدريب والضبط (كيان غير مرئي). لمعالجة هذه المشكلة، تستفيد الأساليب الحالية لقاع دة المعرفة الخارجية لتوليد الاستجابات المناسبة. في العالم الحقيقي العملي، قد لا يتم تضمين الكيان من قبل قاعدة المعارف أو تعاني من دقة استرجاع المعرفة. للتعامل مع هذه المشكلة، بدلا من إدخال قاعدة المعرفة كإدخال، نقوم بإجبار النموذج على تعلم التمثيل الدلالي الأفضل من خلال التنبؤ بالمعلومات في قاعدة المعرفة، فقط بناء على سياق الإدخال. على وجه التحديد، بمساعدة قاعدة المعرفة، نقدم هدفين تدريبين مساعدين: 1) تفسير الكلمة الملثمين، والتي تخنق معنى الكيان الملثمين بالنظر إلى السياق؛ 2) توليد Hypernym، الذي يتنبأ فرق الكيان بناء على السياق. نتائج التجربة على اثنين من الحوار كوربوس تحقق من فعالية أساليبنا تحت كلا المعرفة والإعدادات المتاحة وغير متوفرة.
يبدأ التفكير الاختلافي من بعض الملاحظات ويهدف إلى إيجاد التفسير الأكثر معقولا لهذه الملاحظات. لأداء الاختطاف، غالبا ما يستخدم البشر من الاستدلالات الزمنية والسببية، ومعرفة كيف يمكن أن يؤدي بعض الوضع الافتراضي إلى نتائج مختلفة. يقدم هذا العمل الدراسة الأولى لكيفية تؤثر هذه المعرفة على المهمة NLI المختلة - التي تتكون في اختيار التفسير الأكثر احتمالا لملاحظات معينة. نحن ندرب نموذج اللغة المتخصصة LMI التي يتم تكليفها بإنشاء ما يمكن أن يحدث بعد ذلك من سيناريو افتراضي يتطور من حدث معين. بعد ذلك اقتراح نموذج متعدد المهام MTL لحل المهمة NLI المختلة، والذي يتوقع تفسير معقول من قبل) النظر في الأحداث المحتملة المختلفة الناشئة عن الفرضيات المرشحة - الأحداث الناتجة عن LMI - و B) اختيار واحد أكثر مماثلة إلى النتيجة التي لوحظت. نظهر أن نموذج MTL الخاص بنا يحسن أكثر من LMS من الفانيليا السابقة التي تم تدريبها مسبقا على NLI Paltrack NLI. يشير التقييم والتحليلات اليدوية لدينا إلى أن التعلم عن الأحداث القادمة المحتملة من سيناريوهات افتراضية مختلفة يدعم الاستدلال المختلف.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا