نظرا لفيديو غير جذوع واستعلام لغة طبيعية، يهدف توطين فيديو اللغة الطبيعي (NLVL) إلى تحديد لحظة الفيديو الموصوفة بواسطة الاستعلام. لمعالجة هذه المهمة، يمكن تجميع الأساليب الحالية تقريبا إلى مجموعتين: 1) نماذج اقتراح ورتبة تحدد أولا مجموعة من المرشحين لحظة مصممة باليد، ثم اكتشفوا أفضل واحد مطابقة. 2) النماذج الخالية من الاقتراح تنبئ مباشرة اثنين من الحدود الزمنية لحظة المرجعية من الإطارات. حاليا، تقريبا جميع طرق الاقتراح والرتبة لها أداء أدنى أقل من نظرائها الخالية من الاقتراح. في هذه الورقة، نجادل بأن أداء نماذج الاقتراح والرسوم يتم تقليله بسبب الإصابة المحددة مسبقا: 1) من الصعب ضمان القواعد المصممة باليد التغطية الكاملة للقطاعات المستهدفة. 2) لحظات مرشح العينات كثيفة تسبب حسابا زائدة عن الحاجة ويخفض أداء عملية الترتيب. تحقيقا لهذه الغاية، نقترح نموذجا جديدا نموذج LPNET (شبكة اقتراح مقترح ل NLVL) مع مجموعة ثابتة من مقترحات اللحظات المحددة. يتم تعديل موضع وطول هذه المقترحات ديناميكيا أثناء عملية التدريب. علاوة على ذلك، تم اقتراح خسارة على علم الحدود لاستفادة من المعلومات على مستوى الإطار وأيضا تحسين الأداء. أظهرت الاعتداءات الواسعة على اثنين من معايير NLVL التحدي فعالية LPNET على الطرق الحالية من الأساليب الحالية.
Given an untrimmed video and a natural language query, Natural Language Video Localization (NLVL) aims to identify the video moment described by query. To address this task, existing methods can be roughly grouped into two groups: 1) propose-and-rank models first define a set of hand-designed moment candidates and then find out the best-matching one. 2) proposal-free models directly predict two temporal boundaries of the referential moment from frames. Currently, almost all the propose-and-rank methods have inferior performance than proposal-free counterparts. In this paper, we argue that the performance of propose-and-rank models are underestimated due to the predefined manners: 1) Hand-designed rules are hard to guarantee the complete coverage of targeted segments. 2) Densely sampled candidate moments cause redundant computation and degrade the performance of ranking process. To this end, we propose a novel model termed LPNet (Learnable Proposal Network for NLVL) with a fixed set of learnable moment proposals. The position and length of these proposals are dynamically adjusted during training process. Moreover, a boundary-aware loss has been proposed to leverage frame-level information and further improve performance. Extensive ablations on two challenging NLVL benchmarks have demonstrated the effectiveness of LPNet over existing state-of-the-art methods.
References used
https://aclanthology.org/
Deep learning (DL) based language models achieve high performance on various benchmarks for Natural Language Inference (NLI). And at this time, symbolic approaches to NLI are receiving less attention. Both approaches (symbolic and DL) have their adva
The ability of learning disentangled representations represents a major step for interpretable NLP systems as it allows latent linguistic features to be controlled. Most approaches to disentanglement rely on continuous variables, both for images and
This article explores the potential for Natural Language Processing (NLP) to enable a more effective, prevention focused and less confrontational policing model that has hitherto been too resource consuming to implement at scale. Problem-Oriented Pol
Video Question Answering (VidQA) evaluation metrics have been limited to a single-word answer or selecting a phrase from a fixed set of phrases. These metrics limit the VidQA models' application scenario. In this work, we leverage semantic roles deri
This paper introduces a new video-and-language dataset with human actions for multimodal logical inference, which focuses on intentional and aspectual expressions that describe dynamic human actions. The dataset consists of 200 videos, 5,554 action l