تهدف التصنيف متعدد الوسائط واسع النطاق إلى التمييز بين مختلف البيانات متعددة الوسائط، وقد لفت الانتباه بشكل كبير منذ العقد الماضي. في هذه الورقة، نقترح إطارا متعدد المهام في مجال التعلم لمهمة التصنيف المتعدد الوسائط، والتي تتكون من فرعين: فرع متعدد الأضوانات متعدد الوسائط وفرع النمذجة متعددة الوسائط المستنتيت بالاهتمام. يمكن أن يتلقى AutoNcoder متعدد الوسائط ميزات متعددة الوسائط والحصول على المعلومات التفاعلية التي تسمى ميزة التشفير متعددة الوسائط، واستخدام هذه الميزة لإعادة تكوين جميع بيانات الإدخال. بالإضافة إلى ذلك، يمكن استخدام ميزة التشفير المتعددة مشروط لإثراء بيانات DataSet RAW، وتحسين أداء مهام المصب (مثل مهمة التصنيف). أما بالنسبة لفرع النمذجة المتعددة الأبعاد القائم على الانتباه، فإننا نوصي أولا آلية الاهتمام لجعل النموذج يركز على الميزات المهمة، ثم نستخدم ميزة التشفير متعددة الوسائط لإثراء معلومات الإدخال، وتحقيق أداء أفضل. نقوم بإجراء تجارب مكثفة على مجموعة بيانات مختلفة، توضح النتائج فعالية الإطار المقترح.
Large-scale multi-modal classification aim to distinguish between different multi-modal data, and it has drawn dramatically attentions since last decade. In this paper, we propose a multi-task learning-based framework for the multimodal classification task, which consists of two branches: multi-modal autoencoder branch and attention-based multi-modal modeling branch. Multi-modal autoencoder can receive multi-modal features and obtain the interactive information which called multi-modal encoder feature, and use this feature to reconstitute all the input data. Besides, multi-modal encoder feature can be used to enrich the raw dataset, and improve the performance of downstream tasks (such as classification task). As for attention-based multimodal modeling branch, we first employ attention mechanism to make the model focused on important features, then we use the multi-modal encoder feature to enrich the input information, achieve a better performance. We conduct extensive experiments on different dataset, the results demonstrate the effectiveness of proposed framework.
المراجع المستخدمة
https://aclanthology.org/
تصف هذه الورقة مساهمتنا في المهمة المشتركة Wassa 2021 بشأن التنبؤ بالمساءات وتصنيف العاطفة.كان الهدف الواسع لهذه المهمة هو نموذج درجة التعاطف، ونتيجة استغاثة والمستوى العام للعاطفة للمقال مكتوب استجابة لمقال الصحف المرتبطة بالأذى لشخص ما.لقد استخدمنا
نقترح النموذج الفوري الحدث العصبي الذي يتم فيه تدريب كائن تحرير الحدث بشكل مشترك مع خمس مهام: اكتشاف الزناد، كائن كور السلاح، تصميم المشمول، اكتشاف Realis، استخراج الوسيطة.لتوجيه تعلم هذا النموذج المعقد، فإننا ندمج قيود الاتساق عبر المهام في عملية ال
أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال
بالنسبة لجهاز كمبيوتر يتفاعل بشكل طبيعي مع إنسان، يجب أن يكون يشبه الإنسان.في هذه الورقة، نقترح نموذج توليد الاستجابة العصبي مع التعلم متعدد المهام للجيل والتصنيف، مع التركيز على العاطفة.يتم تدريب نموذجنا على أساس بارت (لويس وآخرون.، 2020)، وهو نموذج
أظهر المحول متعدد الوسائط نموذجا تنافسي للمهام متعددة الوسائط التي تنطوي على إشارات نصية ومرئية وصوتية.ومع ذلك، نظرا لأن المزيد من الطرائق متورطة، يبدأ الاندماج المتأخر عن طريق التسلسل في الحصول على تأثير سلبي على أداء النموذج.علاوة على ذلك، تصبح تنب