يتطلب التعرف على الكيان المسمى MultiModal (MNER) سد الفجوة بين فهم اللغة والسياق المرئي.في حين أن العديد من التقنيات العصبية متعددة الوسائط قد تم اقتراح دمج الصور في مهمة MNER، فإن قدرة النموذج على الاستفادة من التفاعلات متعددة الوسائط لا تزال مفهومة سيئة.في هذا العمل، نقوم بإجراء تحليلات متعمقة من تقنيات الانصهار متعددة الوسائط المتعددة من وجهات نظر مختلفة ووصف السيناريوهات حيث لا تؤدي إضافة معلومات من الصورة دائما إلى زيادة الأداء.ندرس أيضا استخدام التسميات التوضيحية كوسيلة لإثراء السياق ل MNER.تعرض التجارب في ثلاث مجموعات من المنصات الاجتماعية الشعبية عنق الزجاجة من النماذج متعددة الوسائط الحالية والحالات التي يستخدمها المساميرات مفيدة.