سؤال الفيديو يجيب مع عبارات الأدوار الدلالية


الملخص بالعربية

تقتصر مقاييس تقييم سؤال الفيديو (VIDQA) على إجابة كلمة واحدة أو اختيار عبارة من مجموعة ثابتة من العبارات.هذه المقاييس تحد من سيناريو تطبيق نماذج VIDQA.في هذا العمل، نستفيد الأدوار الدلالية المستمدة من أوصاف الفيديو لإخفاء عبارات معينة، لإدخال VIDQAP الذي يطرح VIDQA كامرأة تعبئة العبارة.لتمكين تقييم الجمل الإجابة، نحسب التحسين النسبي للإجابة المتوقعة مقارنة بسلسلة فارغة.لتقليل تأثير التحيز اللغوي في مجموعات بيانات VIDQA، نسترجع شريط فيديو له إجابة مختلفة لنفس السؤال.لتسهيل البحث، نقوم ببناء AttactNet-SRL-QA و Charads-SRL-QA ومقاييسهم عن طريق تمديد ثلاث نماذج لغة رؤية.نحن نقوم بإجراء تحليل مكثف ودراسات ablative لتوجيه العمل في المستقبل.الرمز والبيانات عامة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث