نحن نحقق في الحث القوي بمساعدة الفيديو، والذي يتعلم محلل دائرة من كل من النص غير المستمر والفيديو المقابل له. التركيز الأساليب الموجودة من التعريفي النحوي متعدد الوسائط على تحريض القواعد الناقص من أزواج الصور النصية، مع نتائج واعدة تظهر أن المعلومات من الصور الثابتة مفيدة في الحث. ومع ذلك، توفر مقاطع الفيديو معلومات أكثر ثراء، بما في ذلك الكائنات الثابتة فقط ولكن أيضا إجراءات وتغيرات الدولة مفيدة لتحقيق عبارات الفعل. في هذه الورقة، نستكشف ميزات غنية (على سبيل المثال الإجراء، الكائن، الكائن، المشهد، الصوت، الوجه، التعرف الحر الحر، خطاب الكلام) من مقاطع الفيديو، مع أخذ نموذج PCFG المركب الأخير كناسما أساسيا. نقترح كذلك نموذج PCFG متعدد الوسائط (MMC-PCFG) لتجميع هذه الميزات الغنية بفعالية من طرائق مختلفة. يتم تدريب MMC-PCFG المقترحين على نهاية إلى نهاية ويتفوق على كل طريقة فردية وأنظمة حديثة سابقة على ثلاثة معايير، I.E. Didemo، Youcook2 و MSRVTT، وتؤكد فعالية الاستفادة من معلومات الفيديو للحصول على الحث القوي غير المنشور.
We investigate video-aided grammar induction, which learns a constituency parser from both unlabeled text and its corresponding video. Existing methods of multi-modal grammar induction focus on grammar induction from text-image pairs, with promising results showing that the information from static images is useful in induction. However, videos provide even richer information, including not only static objects but also actions and state changes useful for inducing verb phrases. In this paper, we explore rich features (e.g. action, object, scene, audio, face, OCR and speech) from videos, taking the recent Compound PCFG model as the baseline. We further propose a Multi-Modal Compound PCFG model (MMC-PCFG) to effectively aggregate these rich features from different modalities. Our proposed MMC-PCFG is trained end-to-end and outperforms each individual modality and previous state-of-the-art systems on three benchmarks, i.e. DiDeMo, YouCook2 and MSRVTT, confirming the effectiveness of leveraging video information for unsupervised grammar induction.
المراجع المستخدمة
https://aclanthology.org/
نهدف في هذه الأطروحة إلى التعرف على النشاط البشري من مقطع فيديو. نبدأ بدراسة مرجعية
تشمل الطرق والخوارزميات المتّبعة في هذا المجال، وعرض لقواعد البيانات العالمية والطرق
المتبعة في الاختبار، ثم ننتقل إلى تصميم نظام للتعرف على النشاط البشري وتنفيذه في بيئة
MATLAB.
تهدف اللغة الزمنية الأرضية في مقاطع الفيديو إلى توطين الفترة الزمنية ذات الصلة بالسجن الاستعلام المحدد. الطريقة السابقة تعاملها إما بمهمة الانحدار للحدود أو مهمة استخراج تمتد. ستقوم هذه الورقة بصياغة لغة زمنية تأريض في فهم قراءة الفيديو واقتراح شبكة
يقدم هذا البحث دراسة هدفها تحسين أداء آلة درفلة الحديد على الساخن , و جعلها مطابقة للمواصفات الدولية حيث تشمل الدراسة مرحلتين: الأولى و تتضمن النمذجة الرياضية و محاكاة آلة الدرفلة . أما المرحلة الثانية فتشمل تطوير و اختبار نظم التحكم البديلة .
اختبر
تعتمد الترجمة الآلية عادة على Corpora الموازي لتوفير إشارات متوازية للتدريب.جلبت ظهور الترجمة الآلية غير المنشورة ترجمة آلة بعيدا عن هذا الاعتماد، على الرغم من أن الأداء لا يزال يتخلف عن الترجمة التقليدية للإشراف الآلية.في الترجمة الآلية غير المنشورة
تشخيص أمراض الجنب هي واحدة من المشاكل الطبية المتكررة. و على الرغم من توفر مجموعة متنوعة من الاختبارات التشخيصية لتقييم الانصباب الجنبي, لاتزال (15-20٪) من الانصبابات الجنبية دون تشخيص, يأتي دور الجراحة التنظيرية هنا جذرياً و حاسماً بحيث تسمح بدراسة