ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين المحاذاة عبر الوسائط في رؤية لغة الرؤية عبر المعلومات الأساسية

Improving Cross-Modal Alignment in Vision Language Navigation via Syntactic Information

224   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

رؤية لغة الرؤية هي المهمة التي تتطلب وكيل للتنقل من خلال بيئة ثلاثية الأبعاد بناء على تعليمات اللغة الطبيعية. أحد التحدي الرئيسي في هذه المهمة هو التعليمات البرية مع المعلومات المرئية الحالية التي يترافق الوكيل. معظم العمل الحالي توظف اهتماما ناعما على الكلمات الفردية لتحديد موقع التعليمات المطلوبة للعمل التالي. ومع ذلك، فإن كلمات مختلفة لها وظائف مختلفة في الجملة (على سبيل المثال، المعدلات ينقل السمات، الأفعال تنقل الإجراءات). يمكن أن تساعد معلومات بناء الجملة مثل التبعيات وهياكل العبارات الوكيل لتحديد أجزاء مهمة من التعليمات. وبالتالي، في هذه الورقة، نقترح وكيل التنقل الذي يستخدم معلومات بناء الجملة المستمدة من شجرة التبعية لتعزيز المحاذاة بين التعليمات والمشاهد المرئية الحالية. التجريبية، تتفوق وكيلنا على نموذج خط الأساس الذي لا يستخدم معلومات بناء الجملة على مجموعة بيانات الغرفة إلى الغرفة، خاصة في البيئة غير المرئية. بالإضافة إلى ذلك، يحقق وكيلنا الحديث الجديد في مجموعة بيانات الغرفة عبر الغرفة، والتي تحتوي على تعليمات في 3 لغات (الإنجليزية، الهندية، التيلجو). نظهر أيضا أن وكيلنا أفضل في محاذاة التعليمات مع المعلومات المرئية الحالية عبر تصورات نوعية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

لقد قطع تحليل المعنويات شوطا طويلا لغات الموارد عالية الوزن بسبب توافر كورسا مشروح كبير.ومع ذلك، فإنه لا يزال يعاني من عدم وجود بيانات تدريب لغات الموارد المنخفضة.لمعالجة هذه المشكلة، نقترح شبكة الخصومة باللغة الشرطية (العشيرة)، وهي عبارة عن مبنى عصب ي نهاية إلى نهائي لتحليل المشاعر المتبادلة دون إشراف عبر اللغات.تختلف العشيرة عن العمل المسبق في ذلك، حيث يسمح للتدريب الخصم بتصدر على كل من الميزات المستفادة وتنبؤ المعنويات، لزيادة التمييزي للتمثيل المستفاد في الإعداد المتبادل.تظهر النتائج التجريبية أن العشيرة تفوقت على الطرق السابقة في مجموعة بيانات مراجعة الأمازون متعددة المجالات متعددة اللغات.يتم إصدار شفرة المصدر لدينا في https://github.com/hemanthkandula/clan.
تقوم هذه الدراسات الورقية بالتحويل عبر اللغات الصفرية إلى نماذج لغة الرؤية. على وجه التحديد، نركز على البحث عن نص متعدد اللغات والفيديو واقتراح نموذجا يستند إلى المحولات التي تتعلم أن تضمينات السياق متعددة اللغات متعددة اللغات. تحت إعداد طلقة صفرية، نوضح تجريبيا أن الأداء يتحلل بشكل كبير عند الاستعلام عن نموذج الفيديو النصي متعدد اللغات مع جمل غير إنجليزية. لمعالجة هذه المشكلة، نقدم استراتيجية متعددة الاستخدامات متعددة الاستخدامات متعددة اللغات، وجمع مجموعة بيانات تعليمية متعددة اللغات متعددة اللغات (متعدد HOWTO100M) للتدريب المسبق. تشير التجارب في VTT إلى أن طريقتنا تعمل بشكل كبير على تحسين البحث عن الفيديو في اللغات غير الإنجليزية دون شروح إضافية. علاوة على ذلك، عند توفر التعليقات التوضيحية متعددة اللغات، تتفوقت طريقة لدينا على خطوط الأساس الحديثة بواسطة هامش كبير في البحث عن نص متعدد اللغات للفيديو على VTT و Vatex؛ وكذلك في البحث النص متعدد اللغات إلى الصورة على multi30k. يتوفر نموذجنا ومتعدد HOWTO100M على http://github.com/berniebear/multi-ht100m.
نقترح مهمة جديدة، Text2Mol، لاسترداد الجزيئات باستخدام أوصاف اللغة الطبيعية كاستعلامات. تشفر اللغة الطبيعية والجزيئات المعلومات بطرق مختلفة جدا، مما يؤدي إلى مشكلة مثيرة ولكن صعبة للغاية لإدماج هاتين الطرائق المختلفة للغاية. على الرغم من أن بعض الأعم ال قد تم في استرجاع الاسترجاع والبنية القائمة على النصوص، إلا أن هذه المهمة الجديدة تتطلب دمج الجزيئات واللغة الطبيعية بشكل مباشر. علاوة على ذلك، يمكن اعتبار ذلك مشكلة استرجاع متبادلة مليئة بالتحدي بشكل خاص من خلال النظر في الجزيئات ككلدا بقواعد فريدة من نوعها. نقوم بإنشاء مجموعة بيانات مزخرفة من الجزيئات وأوصاف النص المقابلة، والتي نستخدمها لتعلم مساحة تضمين الدلالة المشتركة المحاذاة لاسترجاعها. نقوم بتمديد هذا لإنشاء نموذج يعتمد على الاهتمام عبر الوسائط للتفسير وإعادة تأهب من خلال تفسير الانتباه كقواعد جمعية. نوظف أيضا نهج فرقة لإدماج بنياتنا المختلفة، والتي تعمل بشكل كبير على تحسين النتائج من 0.372 إلى 0.499 مرين. يفتح هذا النهج الجديد متعدد الوسائط وجهة نظر جديدة حول حل المشكلات في فهم الأدب الكيمياء وتعلم الجهاز الجزيئي.
تشفير لغة متعددة اللغات المدربة مسبقا، مثل Bert متعدد اللغات و XLM-R، إظهار إمكانات كبيرة للتحويل الصفر - عبر اللغات. ومع ذلك، فإن هذه اللوائح متعددة اللغات لا تحيي بالتحديد الكلمات والعبارات عبر اللغات. على وجه الخصوص، يتطلب محاذاة التعلم في مساحة ا لتضمين متعددة اللغات عادة على مستوى الجملة أو المستوى الموازي على مستوى Word، وهي مكلفة يتم الحصول عليها لغات الموارد المنخفضة. بديل هو جعل التشفير متعددة اللغات أكثر قوة؛ عند ضبط التشفير باستخدام المهمة المصدرة للمهمة، نربط التشفير لتتسامح مع الضوضاء في المساحات التضمين السياقية بحيث لا تتماشى تمثيلات اللغات المختلفة بشكل جيد، لا يزال بإمكان النموذج تحقيق أداء جيد على الصفر بالرصاص عبر اللغات نقل. في هذا العمل، نقترح استراتيجية تعليمية لتدريب النماذج القوية عن طريق رسم الروابط بين الأمثلة الخصومة وحالات فشل النقل الصفرية عبر اللغات. نعتمد اثنين من أساليب التدريب القوية المستخدمة على نطاق واسع، والتدريب الخصوم والتنعيم العشوائي، لتدريب النموذج القوي المرغوب فيه. توضح النتائج التجريبية أن التدريب القوي يحسن نقل صفرية عبر اللغات على مهام تصنيف النص. التحسن هو أكثر أهمية في إعداد النقل المتبادل المعمم، حيث ينتمي زوج جمل المدخلات إلى لغتين مختلفة.
بالنسبة للمبرمجين، تعلم استخدام واجهات برمجة التطبيقات (واجهات برمجة التطبيق) لمكتبة البرمجيات أمرا مهما للغاية. يمكن لأدوات توصية API أن تساعد المطورين في استخدام واجهات برمجة التطبيقات من خلال التوصية باستخدام واجهات برمجة التطبيقات التي سيتم استخد امها بعد ذلك بالنظر إلى واجهات برمجة التطبيقات التي تمت كتابتها. تقليديا، يتم تطبيق نماذج اللغة مثل غرام N على توصية API. ومع ذلك، نظرا لأن مكتبات البرمجيات تبقي المتغيرات والمكتبات الجديدة تبقي الناشئة، فإن واجهات برمجة التطبيقات الجديدة شائعة. يمكن رؤية واجهات برمجة التطبيقات الجديدة هذه مثل كلمات OOV (خارج المفردات) ولا يمكن التعامل معها جيدا من خلال نهج توصية API الحالية بسبب عدم وجود بيانات تدريبية. في هذه الورقة، نقترح ApireCX، أول نهج توصية API للمكتبات، والذي يستخدم BPE لتقسيم كل مكالمة API في كل تسلسل API وقم بتدريب نموذج اللغة GPT. ثم توصي باختصارها عن طريق ضبط النموذج المدرب مسبقا. يمكن ل APIRECX ترحيل معرفة المكتبات الموجودة إلى مكتبة جديدة، ويمكن أن توصي بايس واجهات برمجة التطبيقات التي تعتبرها OOV مسبقا. نقوم بتقييم ApireCX على ست مكتبات وتؤكد النتائج فعاليتها من خلال مقارنة مع نهج توصية API نموذجية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا