العلاقة - دراسة فيديو القراءة فهم لغرض اللغة الزمنية


الملخص بالعربية

تهدف اللغة الزمنية الأرضية في مقاطع الفيديو إلى توطين الفترة الزمنية ذات الصلة بالسجن الاستعلام المحدد. الطريقة السابقة تعاملها إما بمهمة الانحدار للحدود أو مهمة استخراج تمتد. ستقوم هذه الورقة بصياغة لغة زمنية تأريض في فهم قراءة الفيديو واقتراح شبكة إعلانات العلاقة (Ranet) لمعالجتها. يهدف هذا الإطار إلى تحديد خيار لحظة فيديو من مجموعة الإجابة المحددة مسبقا بمساعدة Incrse-and-Fine-Query-Query-Quicies Infraction و China- يقترح Interactor Interactor من الاختيار مطابقة المعلومات المرئية والنصية في وقت واحد في مستويات لحظة الجملة ومستويات لحظة الرمز المميز، مما يؤدي إلى تفاعل عبر مشروط خشن وغرامة. علاوة على ذلك، يتم تقديم منشئ علاقة متعددة الخيارات الرواية من خلال الاستفادة من الأزلاء الرسم البياني لالتقاط التبعيات بين خيارات لحظات الفيديو للحصول على أفضل اختيار الخيار. تجارب واسعة النطاق على تصنيف ActivityNet-Campative و Tacos و Charades-Sta تثبت فعالية حلنا. ستكون الرموز متاحة في https://github.com/huntersxsx/ranet.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث