ترغب بنشر مسار تعليمي؟ اضغط هنا

هل تتم محاكاة الرؤية واللغة تحسين التأريض المعجمي؟

Does Vision-and-Language Pretraining Improve Lexical Grounding?

352   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم انتقاد التمثيل اللغوي المستمدة من النص وحده بسبب نقص الأساس، أي ربط الكلمات مع معانيها في العالم المادي.عرضت نماذج الرؤية واللغة (VL)، التي تم تدريبها بالاشتراك على نص بيانات النص والصورة أو الفيديو كرددا على مثل هذه الانتقادات.ومع ذلك، في حين أظهرت مؤشر الأفلام VL النجاح على مهام متعددة الوسائط مثل الإجابة على السؤال المرئي، فإنه لم يعرف بعد كيف المقارنة بين التمثيلات اللغوية الداخلية أنفسهم بنظرائهم النصي فقط.تقارن هذه الورقة التمثيلات الدلالية المستفادة عبر VL مقابل النص لا يمكن أن تحذر فقط عن نماذج VL الأخيرة باستخدام مجموعة من التحليلات (التجميع والتحقيق والأداء في مهمة الإجابة على سؤال للبلد) في وضع لغة فقط.نجد أن النماذج متعددة الوسائط تفشل في الظهور بشكل كبير من المتغيرات النصية فقط، مما يشير إلى أن العمل المستقبلي مطلوب إذا تم اتباع الاحتجاج متعدد الوسائط بمثابة متابعته كوسيلة لتحسين NLP بشكل عام.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تهدف العبارة الأساسية إلى تعيين العبارات النصية إلى مناطق الصور المرتبطة بها، والتي يمكن أن تكون شرطا أساسيا لسبب متعدد الوسائط ويمكن أن تستفيد المهام التي تتطلب تحديد الكائنات القائمة على اللغة. مع تحقيق نماذج للرؤية واللغة المدربة مسبقا أداء مثير ل لإعجاب عبر المهام، لا يزال غير واضح إذا كان بإمكاننا الاستفادة مباشرة من تضمينهم المستفادين لعبارة التأريض دون ضبط جيد. تحقيقا لهذه الغاية، نقترح طريقة لاستخراج أزواج من منطقة العبارات المتطابقة من تضمين الرؤية واللغة المدربة مسبقا واقتراح أربع أهداف صعبة لتحسين عبارة التأريض النموذجية باستخدام بيانات التسمية التوضيحية للصور دون أي إشارات تأريض خاضعة للإشراف. توضح التجارب في مجموعات بيانات تمثيليتين فعالية أهدافنا، مما يتفوق على نماذج أساسية في كل من إعدادات التأريض الإشراف والإشراف عليها. بالإضافة إلى ذلك، نقوم بتقييم embedings المحاذاة على العديد من المهام الأخرى المصب وإظهار أنه يمكننا تحقيق عبارات أفضل دون التضحية بعموة التمثيل.
يتم تعريف حدود قابلية تطبيق نماذج الرؤية واللغة من خلال تغطية بياناتها التدريبية. تتطلب المهام مثل الرؤية الإجابة على الأسئلة (VQA) في كثير من الأحيان معلومات المنطقية والواقعية تتجاوز ما يمكن تعلمه من مجموعات البيانات الخاصة بمهام المهام. تحقق هذه ا لورقة في حقن المعرفة من قواعد المعرفة العامة للأغراض العامة (KBS) إلى محولات الرؤية واللغة. نحن نستخدم هدف تدريب إضافي يشجع التمثيلات المستفادة على محاذاة مع شرطة الرسم البياني للكيانات المطابقة في KB. ندرس تجريبيا أهمية مختلفة KBS إلى مهام ومعايير متعددة. توفر هذه التقنية فوائد واضحة لاستكشاف السؤال المطلقة على المعرفة (OK-VQA، FVQA) من خلال التقاط المعرفة الدلالية والعلدية غائبة عن النماذج القائمة. أكثر من المستغرب، فإن هذه التقنية تفيد أيضا مهام التفكير البصري (NLVR2، SNLI-VE). نقوم بإجراء تجارب التحقيق وإظهار أن حقن المعرفة الإضافية ينتقلان مساحة الشريات التي تحسن من تمثيل أوجه التشابه المعجمية والدلالية. تقنية النموذج الأذرع ويمكن أن توسع قابلية تطبيق أي محول للرؤية واللغة مع الحد الأدنى من النفقات الحاسوبية.
نقترح مهمة توليد التعليقات تلقائيا عن السباقات في لعبة سباق السيارات، من الرؤية والبيانات العددية والنصية المنظمة. توفر التعليقات معلومات لدعم المتفرجين في فهم الأحداث في السباقات. تحتاج نماذج توليد التعليق إلى تفسير وضع السباق وإنشاء المحتوى الصحيح في اللحظة المناسبة. نحن نقسم المهمة إلى قسمين فرعيين: تحديد توقيت الكلام وتوليد الكلام. نظرا لأن مجموعات البيانات الحالية لا تملك محاذاة بيانات في طرائق متعددة، لم يتم استكشاف هذا الإعداد بعمق. في هذه الدراسة، نقدم مجموعة بيانات جديدة واسعة النطاق تحتوي على بيانات الفيديو المحاذاة، والبيانات العددية المنظمة، والتعليقات المسجلة التي تتكون من 129226 كلمة في 1389 سباقا في لعبة. يكشف تحليلنا أن خصائص التعليقات تتغير مع مرور الوقت أو من وجهات النظر. تشير تجاربنا في المساحات الفرعية إلى أنه لا يزال يمثل تحديا لتشميز رؤية أحدث لرؤية معلومات مفيدة من مقاطع الفيديو لتوليد تعليقات دقيقة. نجعل مجموعة بيانات وتنفيذ خط الأساس متاحة للجمهور لمزيد من البحث.
تم إثبات التحسينات الأخيرة المثيرة للإعجاب في NLP، على أساس نجاح نماذج اللغة العصبية السياقية، في معظمها على معظم زوجين من اللغات عالية الموارد. بناء لغة البناء، وبشكل أعم، لا تزال أنظمة NLP للغات غير الموحدة والموارد منخفضة مهمة صعبة. في هذا العمل، نحن fo- cus على اللغة العربية العامية من الشمال الأفريقي العربية المكتوبة باستخدام امتداد من البرنامج النصي اللاتيني، يسمى Narabizi، في الغالب على وسائل التواصل الاجتماعي والرسائل. في هذا السيناريو المنخفض للموارد مع عرض البيانات مستوى كبير من التباين، نقوم بمقارنة أداء المصب لنموذج لغة قائمة على الطابع على وضع علامات جزء من الكلام والاعتماد على نماذج أحادية اللغات وغير اللغوية. نظرا لأن نموذجا مقرا له على الطابع المدرب على جمل 99 ألفا فقط من Narabizi ويتم تغريمه على خرق صغير من هذه اللغة يؤدي إلى أداء قريبة من تلك التي تم الحصول عليها مع نفس الهندسة المعمارية المدربة مسبقا على نماذج كبيرة متعددة اللغات وأنتجة. تؤكد هذه النتائج على مجموعة بيانات أكبر بكثير من المحتوى الناتج عن المستخدم الفرنسي الصاخب، نجح بأن هذه النماذج اللغوية القائمة على الأحرف يمكن أن تكون أصول ل NLP في مجموعة التباين المنخفضة واللغة العالية.
حققت الترجمة الآلية العصبية متعددة اللغات أداء ملحوظا من خلال تدريب نموذج ترجمة واحدة لغات متعددة.تصف هذه الورقة التقديم الخاص بنا (معرف الفريق: CFILT-IITB) لمكتب Multiindicmt: مهمة متعددة اللغات اللغوية في WAT 2021. نقوم بتدريب أنظمة NMT متعددة اللغ ات من خلال تقاسم المعلمات التشفير والكشف مع تضمين اللغة المرتبطة بكل رمزية في كل من التشفير والكشف في كل من التشفير والكشف.علاوة على ذلك، نوضح استخدام الترجمة (تحويل البرنامج النصي) لغارات الجهاز في تقليل الفجوة المعجمية لتدريب نظام NMT متعدد اللغات.علاوة على ذلك، نوضح التحسن في الأداء من خلال تدريب نظام NMT متعدد اللغات باستخدام لغات الأسرة نفسها، أي لغة ذات صلة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا