تبادل اللغات التعليب الوسائط الاحتجاج لاسترجاع الوسائط المتعددة


الملخص بالعربية

حققت نماذج لغة الرؤية المحددة الأخيرة أداء مثير للإعجاب على مهام الاسترجاع عبر مشروط باللغة الإنجليزية. ومع ذلك، تعتمد نجاحهم بشكل كبير على توافر العديد من مجموعات بيانات التعليق المشروح على الصورة لإحاطاء، حيث لا تكون النصوص بالضرورة باللغة الإنجليزية. على الرغم من أنه يمكننا استخدام أدوات الترجمة الآلية (MT) لترجمة النص غير الإنجليزي إلى اللغة الإنجليزية، فإن الأداء لا يزال يعتمد إلى حد كبير على جودة MT وقد يعاني من مشاكل عالية من الكمون في تطبيقات العالم الحقيقي. تقترح هذه الورقة نهجا جديدا لتعلم تمثيلات متعددة الوسائط عبر اللغات لمطابقة الصور وإياراتها ذات الصلة بلغات متعددة. نجمع بسلاسة بسلاسة أهداف محالمانية عبر اللغات وأهداف محالم الاحتجاج بالعدوان في إطار موحد لتعلم الصور والنص في مساحة تضمين مشتركة من بيانات التسمية التوضيحية باللغة الإنجليزية المتاحة، مونولينغيا ومتوازي Corpus. نظظ أن نهجنا يحقق أداء SOTA في مهام استرجاع على معايير التسمية التوضيحية متعددة اللغات متعددة اللغات متعددة اللغات: multi30k مع التسميات التوضيحية الألمانية و mscoco مع التسميات التوضيحية اليابانية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث