ترغب بنشر مسار تعليمي؟ اضغط هنا

MTTT: تعلم تعويضات التفاعل المتعدد الوسائط من المحولات ثلاثية التريلين

MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering

411   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في السؤال المرئي الرد على (VQA)، تركز الأساليب الطيفة الموجودة على التفاعل بين الصور والأسئلة. نتيجة لذلك، يتم تقسيم الإجابات إلى الأسئلة أو المستخدمة كملصقات فقط للتصنيف. من ناحية أخرى، تستخدم نماذج Trilinear مثل نموذج CTI بكفاءة معلومات فيما بين الاعتراضات بين الإجابات والأسئلة والصور، مع تجاهل معلومات المشرفة داخل العملية. مستوحاة من هذه الملاحظة، نقترح إطارا جديدا للتفاعل Trilinear يسمى Mirtt (تعلم تشكيل التفاعل المتعدد الوسائط من محولات Trilinear)، مما يشتمل على آليات الاهتمام لالتقاط علاقات الوسائط المشتركة بين الوسائط والتعديل. علاوة على ذلك، نقوم بتصميم سير عمل من مرحلتين حيث يقلل نموذج Silinear النموذج الحر، مشكلة VQA مفتوحة العضوية في مشكلة VQA متعددة الخيارات. علاوة على ذلك، للحصول على تمثيلات دقيقة وجميلة متعددة الاستخدامات، فإننا قرب ما قبل تدريب Mirtt مع التنبؤ اللغوي الملثمين. تقوم طريقةنا بتحقيق الأداء الحديث في مهمة Visual7W Task و VQA-1.0 متعددة الخيارات ومفتوحة خطوط الأساس Silinear على مجموعات بيانات VQA-2.0 و TDIUC و GQA.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تستخدم أنظمة الرد على السؤال المرئي الحالي (VQA) بشكل شائع الشبكات العصبية الرسم البيانية (GNNS) لاستخراج العلاقات البصرية مثل العلاقات الدلالية أو العلاقات المكانية. ومع ذلك، فإن الدراسات التي تستخدم GNNS تتجاهل عادة أهمية كل علاقة وتسلسل ببساطة الن واتج من ترميز العلاقات المتعددة. في هذه الورقة، نقترح هندسة طبقة جديدة تضرب علاقات مرئية متعددة من خلال آلية الاهتمام لمعالجة هذه المسألة. على وجه التحديد، نقوم بتطوير نموذج يستخدم تضمين السؤال ومضمون مشترك للمشفرين للحصول على أوزان الاهتمام الديناميكي فيما يتعلق بنوع الأسئلة. باستخدام الأوزان الاهتمام بالترفيه، يمكن للنموذج المقترح استخدام ميزات العلاقة المرئية اللازمة لسؤال معين. النتائج التجريبية على DataSet VQA 2.0 توضح أن النموذج المقترح تفوق الفنيات القائمة على الرسم البياني القائمة على شبكة الإنترنت. بالإضافة إلى ذلك، نقوم بتصور وزن الاهتمام وإظهار أن النموذج المقترح يعين وزن أعلى للعلاقات الأكثر صلة بالمسألة.
اختارت الأبحاث متعددة الوسائط بشكل كبير في مساحة السؤال الرد على المهمة التي يتم تمديدها إلى السؤال المرئي الرد على الرسوم البيانية، والرسوم البيانية الإجابة عليها وكذلك مسألة مساهمة مدخل متعددة الوسائط.ومع ذلك، فإن كل هذه الاستكشافات تنتج إخراج نصي غير مهني كإجابة.في هذه الورقة، نقترح مهمة رواية - MIMOQA - الإدخال المتعدد الوسائط المتعددة الناتج السؤال الرد الذي يكون فيه الإخراج متعدد الوسائط.من خلال التجارب البشرية، نوضح تجريبيا أن هذه النواتج متعددة الوسائط توفر فهما معرفيا أفضل للإجابات.نقترح أيضا إطارا للردا على السؤال متعدد الوسائط، ميكسبرت، يشتمل على اهتماما نصي مشتركا ومرفقيا نحو إنتاج مثل هذا الناتج متعدد الوسائط.تعتمد طريقنا على مجموعة بيانات متعددة الوسائط غير مصنفة لهذه المشكلة من مجموعات البيانات غير المتوفرة للجمهور.نظهر الأداء الفائق ل Mexbert ضد خطوط أساسية قوية على كل من المقاييس التلقائية وكذلك الإنسان.
أظهر المحول متعدد الوسائط نموذجا تنافسي للمهام متعددة الوسائط التي تنطوي على إشارات نصية ومرئية وصوتية.ومع ذلك، نظرا لأن المزيد من الطرائق متورطة، يبدأ الاندماج المتأخر عن طريق التسلسل في الحصول على تأثير سلبي على أداء النموذج.علاوة على ذلك، تصبح تنب ؤات نموذج الترجمة الشفوية صعبة، لأن المرء يجب أن ينظر إلى مصفوفات تنشيط الاهتمام المختلفة.من أجل التغلب على أوجه القصور هذه، نقترح أداء الانصهار المتأخر عن طريق إضافة وحدة نمطية GMU، والتي تتيح بشكل فعال النموذج من طرائق الوزن على مستوى مثيل، مما يحسن أدائه مع توفير آلية تفسيرية أفضل.في التجارب، نقوم بمقارنة نموذجنا المقترح (Mult-Gmu) مقابل التنفيذ الأصلي (Mult-Concat) ونموذج SOTA تم اختباره في مجموعة بيانات تصنيف أنواع الأفلام.نهجنا، Mult-Gmu، تتفوق على حد سواء، Mult-Concat ونموذج Sota السابق.
تم تحقيق معالم رائعة في نص مطابقة من خلال اعتماد آلية انتباه متقاطعة لالتقاط الروابط الدلالية ذات الصلة بين تمثيلين عقديين.ومع ذلك، يركز الاهتمام العادي عبر مستوى الروابط على مستوى الكلمات بين تسلسل المدخلات، وإهمال أهمية المعلومات السياقية.نقترح شبك ة التفاعل المعرفة في السياق (عملة معدنية) لمحاذاة متسلسلتين بشكل صحيح وتستنتج علاقتها الدلالية.على وجه التحديد، يتضمن كل كتلة تفاعل (1) آلية اعتبارية إعلامية في السياق لإدماج المعلومات السياقية بفعالية عند محاذاة متتسلالات، و (2) طبقة انصهار بوابة لتمثيلات محاذاة محاذاة مرنة.نحن نطبق كتل تفاعلية مكدسة متعددة لإنتاج محاذاة على مستويات مختلفة وتحسين نتائج الانتباه تدريجيا.تجارب على اثنين من مجموعات بيانات مطابقة الأسئلة والتحليلات التفصيلية توضح فعالية نموذجنا.
مجردة مؤخرا، اكتسبت نماذج محولات متعددة الوسائط شعبية لأن أدائها على المهام المصب التي تشير إلى أنهم يتعلمون تمثيلات غنية بصرية لغوية.مع التركيز على مهام استرجاع الصور صفرية، ندرس ثلاثة عوامل مهمة يمكن أن تؤثر على جودة التمثيلات المستفادة: محاولات ال بيانات، آلية الاهتمام، وظائف الخسائر.من خلال نماذج الاحتياطية على ست مجموعات بيانات، نلاحظ أن ضوضاء البيانات وتشابه لغة له مهمتنا المصب لدينا هي مؤشرات مهمة لأداء النموذج.من خلال التحليل المعماري، نتعلم أن النماذج ذات آلية اهتمام متعددة الوسائط يمكن أن تفوق النماذج العميقة مع آليات الاهتمام الخاصة بالطريقة.أخيرا، نظهر أن الخسائر الناجحة للتناقض المستخدمة في أدب التعلم الإشراف على الذات لا تسفر عن مكاسب أداء مماثلة عند استخدامها في محولات متعددة الوسائط.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا