أصبح الاستفادة من أشرطة فيديو الويب غير المسبقة على نطاق واسع مثل مقاطع الفيديو التعليمية للتدريب المسبق مسبقا تليها Finetuning الخاصة بمهمة المهام هي نهج De Facto للعديد من المهام الفيديو واللغة. ومع ذلك، فإن مقاطع الفيديو التعليمية هذه صاخبة للغاية، وغالبا ما تكون روايات العاصرة المصاحبة غير مكتملة، ويمكن أن تكون غير ذات صلة أو غير مهمة مع المحتوى المرئي، مما يحد من أداء النماذج المدربة على هذه البيانات. لمعالجة هذه المشكلات، نقترح طريقة محسنة مسبقة من الفيديو واللغة التي تضيف أولا التوضيحات التي تم استخراجها تلقائيا من إطارات الفيديو كإدخال نص إضافي، لتوفير إشارات مرئية مفيدة لتعلم أفضل لجمعيات الفيديو واللغة. ثانيا، لتخفيف قضية الاختلال الزمنية، تتضمن طريقةنا فقدان انتروبيا مقيدا مقيدا بقليل التقليل، لتشجيع النموذج على التركيز تلقائيا على التسمية التوضيحية الصحيحة من بركة من تعليق المرشح الأساسي. يتم تسمية نهجنا الإجمالي في ديسمبر (تعليق كثيف وتقليل الانتروبيا). تجارب شاملة على ثلاثة مهام فيديو و لغوية (استرجاع النص إلى الفيديو، وتسمية الفيديو، والإجابة على سؤال الفيديو) عبر خمسة مجموعات بيانات توضح أن نهجنا يتفوق على الطرق السابقة من الأساليب السابقة. تظهر دراسة الأزمة على مهام ما قبل التدريب والمعب المصب أن إضافة تعليق كثيف وفقدان الاهتمام المقيد مساعدة في تحسين الأداء النموذجي. أخيرا، نقدم أيضا تصور الاهتمام لإظهار تأثير تطبيق فقدان الاهتمام المقيد المقترح.
Leveraging large-scale unlabeled web videos such as instructional videos for pre-training followed by task-specific finetuning has become the de facto approach for many video-and-language tasks. However, these instructional videos are very noisy, the accompanying ASR narrations are often incomplete, and can be irrelevant to or temporally misaligned with the visual content, limiting the performance of the models trained on such data. To address these issues, we propose an improved video-and-language pre-training method that first adds automatically-extracted dense region captions from the video frames as auxiliary text input, to provide informative visual cues for learning better video and language associations. Second, to alleviate the temporal misalignment issue, our method incorporates an entropy minimization-based constrained attention loss, to encourage the model to automatically focus on the correct caption from a pool of candidate ASR captions. Our overall approach is named DeCEMBERT (Dense Captions and Entropy Minimization). Comprehensive experiments on three video-and-language tasks (text-to-video retrieval, video captioning, and video question answering) across five datasets demonstrate that our approach outperforms previous state-of-the-art methods. Ablation studies on pre-training and downstream tasks show that adding dense captions and constrained attention loss help improve the model performance. Lastly, we also provide attention visualization to show the effect of applying the proposed constrained attention loss.
References used
https://aclanthology.org/
Lack of training data presents a grand challenge to scaling out spoken language understanding (SLU) to low-resource languages. Although various data augmentation approaches have been proposed to synthesize training data in low-resource target languag
Speech translation (ST) has lately received growing interest for the generation of subtitles without the need for an intermediate source language transcription and timing (i.e. captions). However, the joint generation of source captions and target su
Recent information extraction approaches have relied on training deep neural models. However, such models can easily overfit noisy labels and suffer from performance degradation. While it is very costly to filter noisy labels in large learning resour
Training NLP systems typically assumes access to annotated data that has a single human label per example. Given imperfect labeling from annotators and inherent ambiguity of language, we hypothesize that single label is not sufficient to learn the sp
In recent years, world business in online discussions and opinion sharing on social media is booming. Re-entry prediction task is thus proposed to help people keep track of the discussions which they wish to continue. Nevertheless, existing works onl