يتطلب التعرف على الكيان المسمى MultiModal (MNER) سد الفجوة بين فهم اللغة والسياق المرئي.في حين أن العديد من التقنيات العصبية متعددة الوسائط قد تم اقتراح دمج الصور في مهمة MNER، فإن قدرة النموذج على الاستفادة من التفاعلات متعددة الوسائط لا تزال مفهومة سيئة.في هذا العمل، نقوم بإجراء تحليلات متعمقة من تقنيات الانصهار متعددة الوسائط المتعددة من وجهات نظر مختلفة ووصف السيناريوهات حيث لا تؤدي إضافة معلومات من الصورة دائما إلى زيادة الأداء.ندرس أيضا استخدام التسميات التوضيحية كوسيلة لإثراء السياق ل MNER.تعرض التجارب في ثلاث مجموعات من المنصات الاجتماعية الشعبية عنق الزجاجة من النماذج متعددة الوسائط الحالية والحالات التي يستخدمها المساميرات مفيدة.
Multimodal named entity recognition (MNER) requires to bridge the gap between language understanding and visual context. While many multimodal neural techniques have been proposed to incorporate images into the MNER task, the model's ability to leverage multimodal interactions remains poorly understood. In this work, we conduct in-depth analyses of existing multimodal fusion techniques from different perspectives and describe the scenarios where adding information from the image does not always boost performance. We also study the use of captions as a way to enrich the context for MNER. Experiments on three datasets from popular social platforms expose the bottleneck of existing multimodal models and the situations where using captions is beneficial.
المراجع المستخدمة
https://aclanthology.org/
تقوم الترجمة العصبية متعددة اللغات (MNMT) بتدريب نموذج NMT واحد يدعم الترجمة بين لغات متعددة، بدلا من تدريب نماذج منفصلة لغات مختلفة. تعلم نموذج واحد يمكن أن يعزز الترجمة المنخفضة الموارد من خلال الاستفادة من البيانات من لغات متعددة. ومع ذلك، فإن أدا
حققت الترجمة الآلية العصبية متعددة اللغات أداء ملحوظا من خلال تدريب نموذج ترجمة واحدة لغات متعددة.تصف هذه الورقة التقديم الخاص بنا (معرف الفريق: CFILT-IITB) لمكتب Multiindicmt: مهمة متعددة اللغات اللغوية في WAT 2021. نقوم بتدريب أنظمة NMT متعددة اللغ
عرِضت في هذا البحث نتائج الأسلوب متعدد الصور من خلال تطبيق عملي يتضمن بناء نموذج ثلاثي الأبعاد لواجهة أثرية في حصن سليمان في منطقة صافيتا. استخدمنا صوراً رقمية تم الحصول عليها باستخدام آلة تصوير رقمية نوع Kodak 8MP و هي آلة تصوير رقمية ذات ذات دقة تم
يقدم البحث طريقة مطورة لكشف مكان نموذج الوجه في الصورة, و ذلك بجمع أكثر من تقنية لتحقيق أفضل نسبة كشف. يبنى نموذج لون بشرة باستخدام الفضاء اللوني (RGB) Red, Green, Blue, لكشف مناطق البشرة و ينتج المناطق المرشحة لتكون الوجه في الصورة. و من خلال تقنية
إن الحجم الهائل للصور الرقمية المنتجة من المشافي تزداد بسرعة. الصور الطبية يمكن أن تلعب دوراً مهماً بالمساعدة في التشخيص و المعالجة. و يمكن أن تكون مفيدة أيضاً في مجال التعليم لطلاب الطب بواسطة الشرح لهذه الصور الذي يساعدهم في دراستهم. مجال جديد لاست