نحن نحقق في الحث القوي بمساعدة الفيديو، والذي يتعلم محلل دائرة من كل من النص غير المستمر والفيديو المقابل له. التركيز الأساليب الموجودة من التعريفي النحوي متعدد الوسائط على تحريض القواعد الناقص من أزواج الصور النصية، مع نتائج واعدة تظهر أن المعلومات من الصور الثابتة مفيدة في الحث. ومع ذلك، توفر مقاطع الفيديو معلومات أكثر ثراء، بما في ذلك الكائنات الثابتة فقط ولكن أيضا إجراءات وتغيرات الدولة مفيدة لتحقيق عبارات الفعل. في هذه الورقة، نستكشف ميزات غنية (على سبيل المثال الإجراء، الكائن، الكائن، المشهد، الصوت، الوجه، التعرف الحر الحر، خطاب الكلام) من مقاطع الفيديو، مع أخذ نموذج PCFG المركب الأخير كناسما أساسيا. نقترح كذلك نموذج PCFG متعدد الوسائط (MMC-PCFG) لتجميع هذه الميزات الغنية بفعالية من طرائق مختلفة. يتم تدريب MMC-PCFG المقترحين على نهاية إلى نهاية ويتفوق على كل طريقة فردية وأنظمة حديثة سابقة على ثلاثة معايير، I.E. Didemo، Youcook2 و MSRVTT، وتؤكد فعالية الاستفادة من معلومات الفيديو للحصول على الحث القوي غير المنشور.