تقدم هذه الورقة مجموعة بيانات جديدة للفيديو واللغة مع إجراءات بشرية للاستدلال المنطقي متعدد الوسائط، والتي تركز على التعبيرات المتعمدة وجوقية تصف الإجراءات البشرية الديناميكية.تتكون DataSet من 200 فيديو، 5554 ملصقات عمل، و 1،942 ثلاثة توائم عمل من النموذج (الموضوع، المسند، كائن) يمكن ترجمته بسهولة إلى تمثيلات دلالية منطقية.من المتوقع أن تكون DataSet مفيدة لتقييم أنظمة الاستدلال متعددة الوسائط بين مقاطع الفيديو والجمل المعقدة الدلوية بما في ذلك النفي والكمية.