نحن نحقق في الحث القوي بمساعدة الفيديو، والذي يتعلم محلل دائرة من كل من النص غير المستمر والفيديو المقابل له. التركيز الأساليب الموجودة من التعريفي النحوي متعدد الوسائط على تحريض القواعد الناقص من أزواج الصور النصية، مع نتائج واعدة تظهر أن المعلومات من الصور الثابتة مفيدة في الحث. ومع ذلك، توفر مقاطع الفيديو معلومات أكثر ثراء، بما في ذلك الكائنات الثابتة فقط ولكن أيضا إجراءات وتغيرات الدولة مفيدة لتحقيق عبارات الفعل. في هذه الورقة، نستكشف ميزات غنية (على سبيل المثال الإجراء، الكائن، الكائن، المشهد، الصوت، الوجه، التعرف الحر الحر، خطاب الكلام) من مقاطع الفيديو، مع أخذ نموذج PCFG المركب الأخير كناسما أساسيا. نقترح كذلك نموذج PCFG متعدد الوسائط (MMC-PCFG) لتجميع هذه الميزات الغنية بفعالية من طرائق مختلفة. يتم تدريب MMC-PCFG المقترحين على نهاية إلى نهاية ويتفوق على كل طريقة فردية وأنظمة حديثة سابقة على ثلاثة معايير، I.E. Didemo، Youcook2 و MSRVTT، وتؤكد فعالية الاستفادة من معلومات الفيديو للحصول على الحث القوي غير المنشور.
We investigate video-aided grammar induction, which learns a constituency parser from both unlabeled text and its corresponding video. Existing methods of multi-modal grammar induction focus on grammar induction from text-image pairs, with promising results showing that the information from static images is useful in induction. However, videos provide even richer information, including not only static objects but also actions and state changes useful for inducing verb phrases. In this paper, we explore rich features (e.g. action, object, scene, audio, face, OCR and speech) from videos, taking the recent Compound PCFG model as the baseline. We further propose a Multi-Modal Compound PCFG model (MMC-PCFG) to effectively aggregate these rich features from different modalities. Our proposed MMC-PCFG is trained end-to-end and outperforms each individual modality and previous state-of-the-art systems on three benchmarks, i.e. DiDeMo, YouCook2 and MSRVTT, confirming the effectiveness of leveraging video information for unsupervised grammar induction.
References used
https://aclanthology.org/
In this work, our goal is recognizing human action from video data. First we
propose an overview about Human Action Recognition, includes the famous
methods and previous algorithms, then we propose an algorithm and its
implementation using MATLAB.
Temporal language grounding in videos aims to localize the temporal span relevant to the given query sentence. Previous methods treat it either as a boundary regression task or a span extraction task. This paper will formulate temporal language groun
This paper presents a study aimed at improving the performance of the machine, hot steel rolling, and make them conform to international standards, where the study includes two phases: the first includes mathematical modeling and simulation programmi
Machine translation usually relies on parallel corpora to provide parallel signals for training. The advent of unsupervised machine translation has brought machine translation away from this reliance, though performance still lags behind traditional
The diagnosis of pleural diseases is one of the frequent clinical problems. Despite a
variety of diagnostic tests are available for evaluating pleural effusions, approximately 15–
20% of pleural effusions remains undiagnosed, In this cases ,a thora