ترغب بنشر مسار تعليمي؟ اضغط هنا

محولات الدلالة المحاذاة متعددة الوسائط للرؤية - اللغت: دراسة أولية على Visual QA

Semantic Aligned Multi-modal Transformer for Vision-LanguageUnderstanding: A Preliminary Study on Visual QA

397   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نهج فهم اللغة الحديثة في الرؤية اعتماد محول متعدد الوسائط قبل التدريب المسبق و Finetuning النموذج.يتعلم العمل المسبق تمثيلات الرموز النصية والسمات المرئية مع آليات الانهيارات المتقاطعة ويلتقط المحاذاة على أساس إشارات غير مباشرة.في هذا العمل، نقترح تعزيز آلية المحاذاة من خلال دمج هياكل الرسم البياني المشهد للصورة كجسر بين الطرطرين، والتعلم بأهداف جديدة للتناقض.في دراستنا الأولية حول الاسئلة المرئية التركيبية الصعبة الإجابة على المهمة، نظهر النهج المقترح يحقق نتائج محسنة، مما يدل على الإمكانات لتعزيز فهم لغة الرؤية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

كانت مشكلة تفسير المعرفة المستفادة من قبل اهتمام ذاتي متعدد الأطراف في المحولات واحدة من الأسئلة المركزية في NLP. ومع ذلك، فإن الكثير من العمل يركز بشكل أساسي على النماذج المدربة لمهام UNI-MODAL، على سبيل المثال الترجمة الآلية. في هذه الورقة، نقوم بف حص اهتمامي عن نفسه في محول متعدد الوسائط مدربا لمهمة تقسيم الصور. على وجه الخصوص، نحن نختبر ما إذا كانت الوسيلة متعددة المهام تؤثر على أنماط الاهتمام المستفاد. أظهرت تصوراتنا المتمثلة في اهتمام ذاتي ملثمين أن المعرفة اللغوية العامة للمدخلات النصية، و (2) دمج أنماط اهتمامها من القطع الأثرية من طريقة مرئية على الرغم من أنها لم تصل إليها مباشرة. قارنا أنماط انتباه المحولات لدينا مع الاهتمام الملثمين في DistilGPT-2 تم ​​اختباره لجيلي UNI-MODAL لنص التسميات التوضيحية للصور. بناء على خرائط أوزان الاهتمام المستخرجة، فإننا نجادل بأنه ملثم بالاهتمام الذاتي في محول تقسيم الصور يبدو أنه يعزز مع المعرفة الدلالية من الصور، مماثلة للحصول على معلومات مشتركة بين اللغة والرؤية في أنماط اهتمامها.
رؤية لغة الرؤية هي المهمة التي تتطلب وكيل للتنقل من خلال بيئة ثلاثية الأبعاد بناء على تعليمات اللغة الطبيعية. أحد التحدي الرئيسي في هذه المهمة هو التعليمات البرية مع المعلومات المرئية الحالية التي يترافق الوكيل. معظم العمل الحالي توظف اهتماما ناعما ع لى الكلمات الفردية لتحديد موقع التعليمات المطلوبة للعمل التالي. ومع ذلك، فإن كلمات مختلفة لها وظائف مختلفة في الجملة (على سبيل المثال، المعدلات ينقل السمات، الأفعال تنقل الإجراءات). يمكن أن تساعد معلومات بناء الجملة مثل التبعيات وهياكل العبارات الوكيل لتحديد أجزاء مهمة من التعليمات. وبالتالي، في هذه الورقة، نقترح وكيل التنقل الذي يستخدم معلومات بناء الجملة المستمدة من شجرة التبعية لتعزيز المحاذاة بين التعليمات والمشاهد المرئية الحالية. التجريبية، تتفوق وكيلنا على نموذج خط الأساس الذي لا يستخدم معلومات بناء الجملة على مجموعة بيانات الغرفة إلى الغرفة، خاصة في البيئة غير المرئية. بالإضافة إلى ذلك، يحقق وكيلنا الحديث الجديد في مجموعة بيانات الغرفة عبر الغرفة، والتي تحتوي على تعليمات في 3 لغات (الإنجليزية، الهندية، التيلجو). نظهر أيضا أن وكيلنا أفضل في محاذاة التعليمات مع المعلومات المرئية الحالية عبر تصورات نوعية.
في مهمة التنقل في الرؤية واللغة (VLN)، يقوم وكيل مجسد على بيئة ثلاثية الأبعاد، بعد تعليمات اللغة الطبيعية.التحدي في هذه المهمة هو كيفية التعامل مع سيناريوهات المسار حيث يوضح الوكيل من المسار المرجعي.يشرف العمل السابق على الوكيل بالإجراءات القائمة على أقصر مسار من موقع الوكيل إلى الهدف، ولكن هذا الإشراف الموجه نحو الأهداف غالبا ما لا يتماشى مع التعليمات.علاوة على ذلك، فإن مقاييس التقييم التي تستخدمها العمل المسبق لا تقيس مقدار التعليمات اللغوية التي يستطيع الوكيل أن يتبعها.في هذا العمل، نقترح مخطط إشراف بسيط وفعال من اللغات، ومقياس جديد يقيس عدد التعليمات الفرعية التي أكملها الوكيل أثناء الملاحة.
تهدف الترجمة متعددة الوسائط (MMT) إلى تحسين أداء الترجمة من خلال دمج المعلومات المرئية. معظم الدراسات الاستفادة من المعلومات المرئية من خلال دمج ميزات الصورة العالمية كمدخل إضافي أو فك تشفير من خلال حضور المناطق المحلية ذات الصلة في الصورة. ومع ذلك، فإن هذا النوع من استخدام المعلومات المرئية يجعل من الصعب معرفة كيفية تساعد طريقة المرئية ولماذا يعمل. مستوحاة من نتائج (الاقتباس) التي تعد الكيانات أكثر تفكيا في الصورة، نقترح نهجا للتعلم الصريح عبر مستوى الكيانات يهدف إلى زيادة تمثيل الكيان. على وجه التحديد، يتم تأطير النهج كهجوم لإعادة الإعمار الذي يعيد إدخال المدخلات النصية الأصلية من المدخلات متعددة الوسائط يتم استبدال الكيانات بالكيانات بالميزات المرئية. بعد ذلك، يتم استخدام إطار عمل متعدد المهام في الجمع بين مهمة الترجمة ومهمة إعادة الإعمار للاستفادة الكاملة من تعلم تمثيل الكيان عبر الوسائط. تثبت التجارب الواسعة أن نهجنا يمكن أن يحقق أداء قابلا للمقارنة أو أفضل من النماذج الحديثة. علاوة على ذلك، يوضح تحليلنا المتعمق كيفية تحسين المعلومات المرئية الترجمة.
شروط الارتفاع استخراج (أكلت) وتصنيف معنويات الجانب (ASC) هي مهمتان أساسيتان من المهام الفرعية الأساسية والغرامة في تحليل المعنويات على مستوى الجانب (ALSA). في التحليل النصي، تم استخراج المشترك استخراج كل من شروط الارتفاع وأقطاب المعنويات كثيرا بسبب ط لبات أفضل من المهمة الفرعية الفردية. ومع ذلك، في السيناريو متعدد الوسائط، تقتصر الدراسات الحالية على التعامل مع كل مهمة فرعية بشكل مستقل، والتي تفشل في نموذج العلاقة الفطرية بين الأهدافين أعلاه وتتجاهل التطبيقات الأفضل. لذلك، في هذه الورقة، نحن أول من يؤدي ذلك بشكل مشترك أداء أكلت متعددة الوسائط (ماتي) ومتعدد الوسائط (MASC)، ونقترح نهج التعلم المشترك متعدد الوسائط مع اكتشاف العلاقات عبر الوسائط المساعد للمتوسطة تحليل المعنويات على مستوى الجانب (Malsa). على وجه التحديد، نقوم أولا بإنشاء وحدة اكتشاف علاقة نصية إضافية للكشف عنها للتحكم في الاستغلال المناسب للمعلومات المرئية. ثانيا، نعتمد إطار التسلسل الهرمي لسجل الاتصال متعدد الوسائط بين رفيقه ومتك اليومي، بالإضافة إلى توجيه بصري منفصل لكل وحدة فرعية. أخيرا، يمكننا الحصول على جميع أطريات المعنويات على مستوى جانب الجسبي تعتمد على الجوانب المحددة المستخرجة بشكل مشترك. تظهر تجارب واسعة فعالية نهجنا مقابل الأساليب النصية المشتركة والخط الأنابيب ونهج متعددة الوسائط.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا