كيف تؤثر الرؤية على اللغة: مقارنة اهتمامي عن النفس ملثمين في محول UNI-MODAL ومتعدد الوسائط


الملخص بالعربية

كانت مشكلة تفسير المعرفة المستفادة من قبل اهتمام ذاتي متعدد الأطراف في المحولات واحدة من الأسئلة المركزية في NLP. ومع ذلك، فإن الكثير من العمل يركز بشكل أساسي على النماذج المدربة لمهام UNI-MODAL، على سبيل المثال الترجمة الآلية. في هذه الورقة، نقوم بفحص اهتمامي عن نفسه في محول متعدد الوسائط مدربا لمهمة تقسيم الصور. على وجه الخصوص، نحن نختبر ما إذا كانت الوسيلة متعددة المهام تؤثر على أنماط الاهتمام المستفاد. أظهرت تصوراتنا المتمثلة في اهتمام ذاتي ملثمين أن المعرفة اللغوية العامة للمدخلات النصية، و (2) دمج أنماط اهتمامها من القطع الأثرية من طريقة مرئية على الرغم من أنها لم تصل إليها مباشرة. قارنا أنماط انتباه المحولات لدينا مع الاهتمام الملثمين في DistilGPT-2 تم ​​اختباره لجيلي UNI-MODAL لنص التسميات التوضيحية للصور. بناء على خرائط أوزان الاهتمام المستخرجة، فإننا نجادل بأنه ملثم بالاهتمام الذاتي في محول تقسيم الصور يبدو أنه يعزز مع المعرفة الدلالية من الصور، مماثلة للحصول على معلومات مشتركة بين اللغة والرؤية في أنماط اهتمامها.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث