ترغب بنشر مسار تعليمي؟ اضغط هنا

إطار التعلم متعدد المهام المعتمد لتصنيف متعدد الوسائط

Multi Task Learning based Framework for Multimodal Classification

310   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تهدف التصنيف متعدد الوسائط واسع النطاق إلى التمييز بين مختلف البيانات متعددة الوسائط، وقد لفت الانتباه بشكل كبير منذ العقد الماضي. في هذه الورقة، نقترح إطارا متعدد المهام في مجال التعلم لمهمة التصنيف المتعدد الوسائط، والتي تتكون من فرعين: فرع متعدد الأضوانات متعدد الوسائط وفرع النمذجة متعددة الوسائط المستنتيت بالاهتمام. يمكن أن يتلقى AutoNcoder متعدد الوسائط ميزات متعددة الوسائط والحصول على المعلومات التفاعلية التي تسمى ميزة التشفير متعددة الوسائط، واستخدام هذه الميزة لإعادة تكوين جميع بيانات الإدخال. بالإضافة إلى ذلك، يمكن استخدام ميزة التشفير المتعددة مشروط لإثراء بيانات DataSet RAW، وتحسين أداء مهام المصب (مثل مهمة التصنيف). أما بالنسبة لفرع النمذجة المتعددة الأبعاد القائم على الانتباه، فإننا نوصي أولا آلية الاهتمام لجعل النموذج يركز على الميزات المهمة، ثم نستخدم ميزة التشفير متعددة الوسائط لإثراء معلومات الإدخال، وتحقيق أداء أفضل. نقوم بإجراء تجارب مكثفة على مجموعة بيانات مختلفة، توضح النتائج فعالية الإطار المقترح.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة مساهمتنا في المهمة المشتركة Wassa 2021 بشأن التنبؤ بالمساءات وتصنيف العاطفة.كان الهدف الواسع لهذه المهمة هو نموذج درجة التعاطف، ونتيجة استغاثة والمستوى العام للعاطفة للمقال مكتوب استجابة لمقال الصحف المرتبطة بالأذى لشخص ما.لقد استخدمنا نموذج Electra بوفرة ونهج التعلم العميق المتقدمة أيضا مثل التعلم متعدد المهام.بالإضافة إلى ذلك، نحن أيضا الاستفادة من تقنيات تعلم الآلة القياسية مثل الكفر.يحقق نظامنا معامل ارتباط بيرسون من 0.533 في المهمة الفرعية الأولى ونتيجة ماكرو F1 من 0.5528 على المهمة الفرعية الثانية.احتلنا المرتبة الأولى في مهمة تصنيف العاطفة الفرعية والثالث في مهمة التنبؤ بالتعاطف.
نقترح النموذج الفوري الحدث العصبي الذي يتم فيه تدريب كائن تحرير الحدث بشكل مشترك مع خمس مهام: اكتشاف الزناد، كائن كور السلاح، تصميم المشمول، اكتشاف Realis، استخراج الوسيطة.لتوجيه تعلم هذا النموذج المعقد، فإننا ندمج قيود الاتساق عبر المهام في عملية ال تعلم كقيوب ناعمة من خلال تصميم عقوبة الوظائف.بالإضافة إلى ذلك، نقترح فكرة الرواية المتمثلة في عرض كائن العناية والحقوق الحدث بمهمة كائن تحرير واحدة، والتي نعتقد أنها خطوة نحو نموذج موحد لدق السلاح.ينتج النموذج الناتج نتائج أحدث النتائج في مجموعة بيانات QBP 2017 Aquerence.
أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال مرئي (VQA).أولا، نحن ندرب نموذج محاذاة جديدة لتضمين الصور والتعليقات التوضيحية في نفس الفضاء، والذي يحقق تحسنا كبيرا في الأداء على استرجاع التعليق على الصورة W.r.T.طرق مماثلة.ثانيا، نظهر أن المحولات متعددة الوسائط متعددة الاسترجاع باستخدام نموذج المحاذاة المدربين يحسن النتائج على VQA عبر خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط طويلة.كلنا إجراء تجارب مكثفة لإثبات وعد هذا النهج، وفحص طلبات جديدة لوقت الاستدلال مثل مؤشرات التبديلات الساخنة.
بالنسبة لجهاز كمبيوتر يتفاعل بشكل طبيعي مع إنسان، يجب أن يكون يشبه الإنسان.في هذه الورقة، نقترح نموذج توليد الاستجابة العصبي مع التعلم متعدد المهام للجيل والتصنيف، مع التركيز على العاطفة.يتم تدريب نموذجنا على أساس بارت (لويس وآخرون.، 2020)، وهو نموذج ترميز ترميز محول مدرب مسبقا، لتوليد الردود والاعتراف بالمشاعر في وقت واحد.علاوة على ذلك، فنحن نثق خسائر المهام للتحكم في تحديث المعلمات.تظهر التقييمات التلقائية والتقييمات الدليلية للجماعة الجماعية أن النموذج المقترح يجعل الردود التي تم إنشاؤها أكثر وعيا بنفسك.
أظهر المحول متعدد الوسائط نموذجا تنافسي للمهام متعددة الوسائط التي تنطوي على إشارات نصية ومرئية وصوتية.ومع ذلك، نظرا لأن المزيد من الطرائق متورطة، يبدأ الاندماج المتأخر عن طريق التسلسل في الحصول على تأثير سلبي على أداء النموذج.علاوة على ذلك، تصبح تنب ؤات نموذج الترجمة الشفوية صعبة، لأن المرء يجب أن ينظر إلى مصفوفات تنشيط الاهتمام المختلفة.من أجل التغلب على أوجه القصور هذه، نقترح أداء الانصهار المتأخر عن طريق إضافة وحدة نمطية GMU، والتي تتيح بشكل فعال النموذج من طرائق الوزن على مستوى مثيل، مما يحسن أدائه مع توفير آلية تفسيرية أفضل.في التجارب، نقوم بمقارنة نموذجنا المقترح (Mult-Gmu) مقابل التنفيذ الأصلي (Mult-Concat) ونموذج SOTA تم اختباره في مجموعة بيانات تصنيف أنواع الأفلام.نهجنا، Mult-Gmu، تتفوق على حد سواء، Mult-Concat ونموذج Sota السابق.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا