نحن نهدف إلى تحديد أسباب العمل البشري تلقائيا في مقاطع الفيديو عبر الإنترنت.نحن نركز على النوع الواسع من Lifestyle Vlogs، حيث يقوم الأشخاص بإجراء أعمال بينما يصفهم لفظيا.نقدم وجعلها متاحة للجمهور DataSet Whyact، والتي تتكون من 1،077 إجراء بصري مشروح يدويا مع أسبابها.نحن تصف نموذج متعدد الوسائط يرفع المعلومات المرئية والنصية إلى الاستفادة تلقائيا الأسباب المقابلة للعمل المقدم في الفيديو.