ترغب بنشر مسار تعليمي؟ اضغط هنا

محاكاة متعددة الوسائط غير مأهولة

Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs

427   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مجردة، محاكمة واسعة النطاق واسعة النطاق، هو المنهجية القياسية للعديد من المهام في رؤية الكمبيوتر ومعالجة اللغات الطبيعية.في الآونة الأخيرة، تم اقتراح العديد من الطرق للحصول على رؤوس الرؤية واللغة لمعالجة التحديات عند تقاطع هذين المجالات الرئيسية في منظمة العفو الدولية.يمكن تصنيف هذه النماذج في تشفير دفق واحد أو دفق مزدوج.نحن ندرس الاختلافات بين هاتين الفئتين، وإظهار كيف يمكن موحد بموجب إطار نظري واحد.ثم نقوم بإجراء تجارب مراقبة لتمييز الاختلافات التجريبية بين خمسة الرؤية والصغيرة.تظهر تجاربنا أن البيانات التدريبية والضغط هي المسؤولة عن معظم الاختلافات بين النتائج المبلغ عنها، لكنها تكشف أيضا أن طبقة التضمين تلعب دورا حاسما في هذه النماذج الضخمة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم انتقاد التمثيل اللغوي المستمدة من النص وحده بسبب نقص الأساس، أي ربط الكلمات مع معانيها في العالم المادي.عرضت نماذج الرؤية واللغة (VL)، التي تم تدريبها بالاشتراك على نص بيانات النص والصورة أو الفيديو كرددا على مثل هذه الانتقادات.ومع ذلك، في حين أظه رت مؤشر الأفلام VL النجاح على مهام متعددة الوسائط مثل الإجابة على السؤال المرئي، فإنه لم يعرف بعد كيف المقارنة بين التمثيلات اللغوية الداخلية أنفسهم بنظرائهم النصي فقط.تقارن هذه الورقة التمثيلات الدلالية المستفادة عبر VL مقابل النص لا يمكن أن تحذر فقط عن نماذج VL الأخيرة باستخدام مجموعة من التحليلات (التجميع والتحقيق والأداء في مهمة الإجابة على سؤال للبلد) في وضع لغة فقط.نجد أن النماذج متعددة الوسائط تفشل في الظهور بشكل كبير من المتغيرات النصية فقط، مما يشير إلى أن العمل المستقبلي مطلوب إذا تم اتباع الاحتجاج متعدد الوسائط بمثابة متابعته كوسيلة لتحسين NLP بشكل عام.
تقوم هذه الدراسات الورقية بالتحويل عبر اللغات الصفرية إلى نماذج لغة الرؤية. على وجه التحديد، نركز على البحث عن نص متعدد اللغات والفيديو واقتراح نموذجا يستند إلى المحولات التي تتعلم أن تضمينات السياق متعددة اللغات متعددة اللغات. تحت إعداد طلقة صفرية، نوضح تجريبيا أن الأداء يتحلل بشكل كبير عند الاستعلام عن نموذج الفيديو النصي متعدد اللغات مع جمل غير إنجليزية. لمعالجة هذه المشكلة، نقدم استراتيجية متعددة الاستخدامات متعددة الاستخدامات متعددة اللغات، وجمع مجموعة بيانات تعليمية متعددة اللغات متعددة اللغات (متعدد HOWTO100M) للتدريب المسبق. تشير التجارب في VTT إلى أن طريقتنا تعمل بشكل كبير على تحسين البحث عن الفيديو في اللغات غير الإنجليزية دون شروح إضافية. علاوة على ذلك، عند توفر التعليقات التوضيحية متعددة اللغات، تتفوقت طريقة لدينا على خطوط الأساس الحديثة بواسطة هامش كبير في البحث عن نص متعدد اللغات للفيديو على VTT و Vatex؛ وكذلك في البحث النص متعدد اللغات إلى الصورة على multi30k. يتوفر نموذجنا ومتعدد HOWTO100M على http://github.com/berniebear/multi-ht100m.
اختارت الأبحاث متعددة الوسائط بشكل كبير في مساحة السؤال الرد على المهمة التي يتم تمديدها إلى السؤال المرئي الرد على الرسوم البيانية، والرسوم البيانية الإجابة عليها وكذلك مسألة مساهمة مدخل متعددة الوسائط.ومع ذلك، فإن كل هذه الاستكشافات تنتج إخراج نصي غير مهني كإجابة.في هذه الورقة، نقترح مهمة رواية - MIMOQA - الإدخال المتعدد الوسائط المتعددة الناتج السؤال الرد الذي يكون فيه الإخراج متعدد الوسائط.من خلال التجارب البشرية، نوضح تجريبيا أن هذه النواتج متعددة الوسائط توفر فهما معرفيا أفضل للإجابات.نقترح أيضا إطارا للردا على السؤال متعدد الوسائط، ميكسبرت، يشتمل على اهتماما نصي مشتركا ومرفقيا نحو إنتاج مثل هذا الناتج متعدد الوسائط.تعتمد طريقنا على مجموعة بيانات متعددة الوسائط غير مصنفة لهذه المشكلة من مجموعات البيانات غير المتوفرة للجمهور.نظهر الأداء الفائق ل Mexbert ضد خطوط أساسية قوية على كل من المقاييس التلقائية وكذلك الإنسان.
تحليل المعنويات متعددة الوسائط (MSA) يرسم اهتماما متزايدا بتوافر بيانات متعددة الوسائط. يعوق دفعة في أداء نماذج MSA بشكل رئيسي بمشاكل. من ناحية، تعمل MSA الأخيرة على التركيز في الغالب على تعلم الديناميات عبر الوسائط، ولكن الإهمال لاستكشاف الحل الأمثل للشبكات غير المستقرة، والتي تحدد الحد الأدنى لنماذج MSA. من ناحية أخرى، يتداخل المعلومات الصاخبة المخفية في كل طريقة في تعلم ديناميات العرض الصحيحة الصحيحة. لمعالجة المشكلات المذكورة أعلاه، نقترح نموذج تعديل إطار MSA MSA لتحليل المشاعر المتعدد الوسائط (M3SA) لتحديد مساهمة الطرائق وتقليل تأثير المعلومات الصاخبة، وذلك لتحسين تعلم ديناميات غير مهادة وعبرية. على وجه التحديد، تم تصميم خسارة التشكيل لتعديل مساهمة الخسارة على أساس ثقة الطرائق الفردية في كل كلام، وذلك لاستكشاف حل تحديث الأمثل لكل شبكة غير مهام. بالإضافة إلى ذلك، عكس ذلك، فإن معظم الأعمال الموجودة التي تفشل في تصفية المعلومات الصاخبة بشكل صريح، ونحن نضع وحدة تصفية طريقة للتعريف لتحديد وتصفية ضوضاء الوسوية لتعلم التضمين الصحيحة والعصرية. تجارب واسعة النطاق على مجموعات البيانات العامة تثبت أن نهجنا يحقق الأداء الحديثة.
أصبحت ميمات الإنترنت وسيلة قوية لنقل الأفكار السياسية والنفسية والاجتماعية الثقافية. على الرغم من أن الميمات هي روح الدعابة عادة، فقد شهدت الأيام الأخيرة تصعيدا من الأيمن الضارة المستخدمة في التصيد والتبريد الإلكتروني وسوء المعاملة. يكتشف مثل هذه الم يمات صعبة لأنها يمكن أن تكون مشفرة للغاية ومخفية. علاوة على ذلك، في حين أن العمل السابق قد ركز على جوانب محددة من الميمات مثل خطاب الكراهية والدعاية، إلا أنه كان هناك القليل من العمل على الضرر بشكل عام. هنا، نحن نهدف إلى سد هذه الفجوة. على وجه الخصوص، نركز على مهمتين: (ط) اكتشاف الميمات الضارة، و (2) تحديد الكيانات الاجتماعية التي يستهدفونها. لقد تمديد مجموعة بيانات الضرر التي تم إصدارها مؤخرا، والتي غطت covid-19، مع ميمات إضافية وموضوع جديد: السياسة الأمريكية. لحل هذه المهام، نقترح الزخم (إطار متعدد الوسائط للكشف عن الميمات الضارة وأهدافها) شبكة عميقة عميقة متعددة الوسائط تستخدم وجهات نظر عالمية ومحلية للكشف عن الميمات الضارة. تحلل الزخم بشكل منهجي المنظور المحلي والعالمي لمنظمة الإدخال (في كلا الطرائق) ويربطها في سياق الخلفية. الزخم هو تفسير ومتعمول، وإظهار تجاربنا أنه يتفوق على العديد من نهج التنافس القوية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا