VideoClip: ما قبل التدريب المقاوم للتناقض لفهم نص الفيديو الصفر


الملخص بالعربية

نقدم VideoClip، وهو نهج مقاوم للتناقض في تدريب نموذج موحد مسبقا لفهم الفيديو والنصية الصفرية، دون استخدام أي ملصقات على مهام المصب.يقوم VideoClep بتدريب محول الفيديو والنص عن طريق تناقض أزواج فيديو إيجابية مؤقتة متداخلة مع السلبيات الصعبة من أقرب استرجاع جار.تجاربنا على سلسلة متنوعة من المهام المصب، بما في ذلك استرجاع الفيديو على مستوى التسلسل، والتعريب الخاص بمستوى عمل Videoqa ومستوى الرمز المميز، وتجزئة العمل تكشف عن أداء حالة من بين الفن، وتجاوز العمل السابق، وفي بعض الحالات يفوقنالنهج الخاضعة للإشراف.يتوفر الكود في https://github.com/pytorch/fairseq/examples/mmpt.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث