توطين الفيديو باللغة الطبيعية مع مقترحات لحظة معرفة


الملخص بالعربية

نظرا لفيديو غير جذوع واستعلام لغة طبيعية، يهدف توطين فيديو اللغة الطبيعي (NLVL) إلى تحديد لحظة الفيديو الموصوفة بواسطة الاستعلام. لمعالجة هذه المهمة، يمكن تجميع الأساليب الحالية تقريبا إلى مجموعتين: 1) نماذج اقتراح ورتبة تحدد أولا مجموعة من المرشحين لحظة مصممة باليد، ثم اكتشفوا أفضل واحد مطابقة. 2) النماذج الخالية من الاقتراح تنبئ مباشرة اثنين من الحدود الزمنية لحظة المرجعية من الإطارات. حاليا، تقريبا جميع طرق الاقتراح والرتبة لها أداء أدنى أقل من نظرائها الخالية من الاقتراح. في هذه الورقة، نجادل بأن أداء نماذج الاقتراح والرسوم يتم تقليله بسبب الإصابة المحددة مسبقا: 1) من الصعب ضمان القواعد المصممة باليد التغطية الكاملة للقطاعات المستهدفة. 2) لحظات مرشح العينات كثيفة تسبب حسابا زائدة عن الحاجة ويخفض أداء عملية الترتيب. تحقيقا لهذه الغاية، نقترح نموذجا جديدا نموذج LPNET (شبكة اقتراح مقترح ل NLVL) مع مجموعة ثابتة من مقترحات اللحظات المحددة. يتم تعديل موضع وطول هذه المقترحات ديناميكيا أثناء عملية التدريب. علاوة على ذلك، تم اقتراح خسارة على علم الحدود لاستفادة من المعلومات على مستوى الإطار وأيضا تحسين الأداء. أظهرت الاعتداءات الواسعة على اثنين من معايير NLVL التحدي فعالية LPNET على الطرق الحالية من الأساليب الحالية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث