تهدف التصنيف متعدد الوسائط واسع النطاق إلى التمييز بين مختلف البيانات متعددة الوسائط، وقد لفت الانتباه بشكل كبير منذ العقد الماضي. في هذه الورقة، نقترح إطارا متعدد المهام في مجال التعلم لمهمة التصنيف المتعدد الوسائط، والتي تتكون من فرعين: فرع متعدد الأضوانات متعدد الوسائط وفرع النمذجة متعددة الوسائط المستنتيت بالاهتمام. يمكن أن يتلقى AutoNcoder متعدد الوسائط ميزات متعددة الوسائط والحصول على المعلومات التفاعلية التي تسمى ميزة التشفير متعددة الوسائط، واستخدام هذه الميزة لإعادة تكوين جميع بيانات الإدخال. بالإضافة إلى ذلك، يمكن استخدام ميزة التشفير المتعددة مشروط لإثراء بيانات DataSet RAW، وتحسين أداء مهام المصب (مثل مهمة التصنيف). أما بالنسبة لفرع النمذجة المتعددة الأبعاد القائم على الانتباه، فإننا نوصي أولا آلية الاهتمام لجعل النموذج يركز على الميزات المهمة، ثم نستخدم ميزة التشفير متعددة الوسائط لإثراء معلومات الإدخال، وتحقيق أداء أفضل. نقوم بإجراء تجارب مكثفة على مجموعة بيانات مختلفة، توضح النتائج فعالية الإطار المقترح.