تمثيل كلمة التعلم في المحولات متعددة المدربين مسبقا: تقييم جوهري


الملخص بالعربية

مجردة أن هذه الدراسة تنفذ تقييم جوهري منهجي للتمثيل الدلالي الذي تعلمته المحولات متعددة الوسائط المدربة مسبقا. يزعم هذه التمثيلات أنها غير ملائمة للمهمة وأظهرت للمساعدة في العديد من مهام اللغة والرؤية المصب. ومع ذلك، فإن المدى الذي يتماشى فيه مع الحدس الدلالي البشري لا يزال غير واضح. نقوم بتجربة نماذج مختلفة والحصول على تمثيلات كلمة ثابتة من تلك السياق التي يتعلمونها. ثم قمنا بتقييمها ضد الأحكام الدلالية التي قدمها مكبرات الصوت البشرية. تمشيا مع الأدلة السابقة، نلاحظ ميزة معممة للتمثيلات متعددة الوسائط على اللغات فقط على أزواج كلمة ملموسة، ولكن ليس على تلك المجردة. من ناحية، يؤكد ذلك فعالية هذه النماذج لمحاذاة اللغة والرؤية، مما يؤدي إلى تحسين تمثيلات الدلالية للمفاهيم التي ترتكز في الصور. من ناحية أخرى، تبين أن النماذج تتبع أنماط تعليم التمثيل المختلفة، والتي سفي بعض الضوء على كيفية وعند تنفيذ تكامل متعدد الوسائط.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث