ترغب بنشر مسار تعليمي؟ اضغط هنا

فصل دور البيانات والاهتمام والخسائر في المحولات متعددة الوسائط

Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers

486   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مجردة مؤخرا، اكتسبت نماذج محولات متعددة الوسائط شعبية لأن أدائها على المهام المصب التي تشير إلى أنهم يتعلمون تمثيلات غنية بصرية لغوية.مع التركيز على مهام استرجاع الصور صفرية، ندرس ثلاثة عوامل مهمة يمكن أن تؤثر على جودة التمثيلات المستفادة: محاولات البيانات، آلية الاهتمام، وظائف الخسائر.من خلال نماذج الاحتياطية على ست مجموعات بيانات، نلاحظ أن ضوضاء البيانات وتشابه لغة له مهمتنا المصب لدينا هي مؤشرات مهمة لأداء النموذج.من خلال التحليل المعماري، نتعلم أن النماذج ذات آلية اهتمام متعددة الوسائط يمكن أن تفوق النماذج العميقة مع آليات الاهتمام الخاصة بالطريقة.أخيرا، نظهر أن الخسائر الناجحة للتناقض المستخدمة في أدب التعلم الإشراف على الذات لا تسفر عن مكاسب أداء مماثلة عند استخدامها في محولات متعددة الوسائط.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أظهر المحول متعدد الوسائط نموذجا تنافسي للمهام متعددة الوسائط التي تنطوي على إشارات نصية ومرئية وصوتية.ومع ذلك، نظرا لأن المزيد من الطرائق متورطة، يبدأ الاندماج المتأخر عن طريق التسلسل في الحصول على تأثير سلبي على أداء النموذج.علاوة على ذلك، تصبح تنب ؤات نموذج الترجمة الشفوية صعبة، لأن المرء يجب أن ينظر إلى مصفوفات تنشيط الاهتمام المختلفة.من أجل التغلب على أوجه القصور هذه، نقترح أداء الانصهار المتأخر عن طريق إضافة وحدة نمطية GMU، والتي تتيح بشكل فعال النموذج من طرائق الوزن على مستوى مثيل، مما يحسن أدائه مع توفير آلية تفسيرية أفضل.في التجارب، نقوم بمقارنة نموذجنا المقترح (Mult-Gmu) مقابل التنفيذ الأصلي (Mult-Concat) ونموذج SOTA تم اختباره في مجموعة بيانات تصنيف أنواع الأفلام.نهجنا، Mult-Gmu، تتفوق على حد سواء، Mult-Concat ونموذج Sota السابق.
اختارت الأبحاث متعددة الوسائط بشكل كبير في مساحة السؤال الرد على المهمة التي يتم تمديدها إلى السؤال المرئي الرد على الرسوم البيانية، والرسوم البيانية الإجابة عليها وكذلك مسألة مساهمة مدخل متعددة الوسائط.ومع ذلك، فإن كل هذه الاستكشافات تنتج إخراج نصي غير مهني كإجابة.في هذه الورقة، نقترح مهمة رواية - MIMOQA - الإدخال المتعدد الوسائط المتعددة الناتج السؤال الرد الذي يكون فيه الإخراج متعدد الوسائط.من خلال التجارب البشرية، نوضح تجريبيا أن هذه النواتج متعددة الوسائط توفر فهما معرفيا أفضل للإجابات.نقترح أيضا إطارا للردا على السؤال متعدد الوسائط، ميكسبرت، يشتمل على اهتماما نصي مشتركا ومرفقيا نحو إنتاج مثل هذا الناتج متعدد الوسائط.تعتمد طريقنا على مجموعة بيانات متعددة الوسائط غير مصنفة لهذه المشكلة من مجموعات البيانات غير المتوفرة للجمهور.نظهر الأداء الفائق ل Mexbert ضد خطوط أساسية قوية على كل من المقاييس التلقائية وكذلك الإنسان.
تشمل اللغة البشرية أكثر من مجرد نص؛كما أنه ينقل العواطف من خلال النغمة والإيماءات.نقدم دراسة حالة لثلاث هندسة بسيطة وفعالة قائمة على المحولات لتنبؤ المعنويات والعاطفة في البيانات متعددة الوسائط.يقوم نموذج الانصهار المتأخر بدمج ميزات Unimodal لإنشاء ت سلسل ميزة متعددة الوسائط، يجمع نموذج Robin Robin بشكل متكرر بين ميزات BIMODAL باستخدام اهتماما عبر الوسائط، ويجمع نموذج الانصهار الهجين بين ميزات Trimodal و Unimodal معا لتشكيل تسلسل مائع نهائي للتنبؤ بالمشاعر.تبين تجاربنا أن نماذجنا الصغيرة فعالة ومتفوقة على الإصدارات التي تم إصدارها علنا من أنظمة تحليل المعنويات متعددة الوسائط الأكبر والحديثة.
مجردة أن هذه الدراسة تنفذ تقييم جوهري منهجي للتمثيل الدلالي الذي تعلمته المحولات متعددة الوسائط المدربة مسبقا. يزعم هذه التمثيلات أنها غير ملائمة للمهمة وأظهرت للمساعدة في العديد من مهام اللغة والرؤية المصب. ومع ذلك، فإن المدى الذي يتماشى فيه مع الحد س الدلالي البشري لا يزال غير واضح. نقوم بتجربة نماذج مختلفة والحصول على تمثيلات كلمة ثابتة من تلك السياق التي يتعلمونها. ثم قمنا بتقييمها ضد الأحكام الدلالية التي قدمها مكبرات الصوت البشرية. تمشيا مع الأدلة السابقة، نلاحظ ميزة معممة للتمثيلات متعددة الوسائط على اللغات فقط على أزواج كلمة ملموسة، ولكن ليس على تلك المجردة. من ناحية، يؤكد ذلك فعالية هذه النماذج لمحاذاة اللغة والرؤية، مما يؤدي إلى تحسين تمثيلات الدلالية للمفاهيم التي ترتكز في الصور. من ناحية أخرى، تبين أن النماذج تتبع أنماط تعليم التمثيل المختلفة، والتي سفي بعض الضوء على كيفية وعند تنفيذ تكامل متعدد الوسائط.
في السؤال المرئي الرد على (VQA)، تركز الأساليب الطيفة الموجودة على التفاعل بين الصور والأسئلة. نتيجة لذلك، يتم تقسيم الإجابات إلى الأسئلة أو المستخدمة كملصقات فقط للتصنيف. من ناحية أخرى، تستخدم نماذج Trilinear مثل نموذج CTI بكفاءة معلومات فيما بين ال اعتراضات بين الإجابات والأسئلة والصور، مع تجاهل معلومات المشرفة داخل العملية. مستوحاة من هذه الملاحظة، نقترح إطارا جديدا للتفاعل Trilinear يسمى Mirtt (تعلم تشكيل التفاعل المتعدد الوسائط من محولات Trilinear)، مما يشتمل على آليات الاهتمام لالتقاط علاقات الوسائط المشتركة بين الوسائط والتعديل. علاوة على ذلك، نقوم بتصميم سير عمل من مرحلتين حيث يقلل نموذج Silinear النموذج الحر، مشكلة VQA مفتوحة العضوية في مشكلة VQA متعددة الخيارات. علاوة على ذلك، للحصول على تمثيلات دقيقة وجميلة متعددة الاستخدامات، فإننا قرب ما قبل تدريب Mirtt مع التنبؤ اللغوي الملثمين. تقوم طريقةنا بتحقيق الأداء الحديث في مهمة Visual7W Task و VQA-1.0 متعددة الخيارات ومفتوحة خطوط الأساس Silinear على مجموعات بيانات VQA-2.0 و TDIUC و GQA.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا