مجردة، محاكمة واسعة النطاق واسعة النطاق، هو المنهجية القياسية للعديد من المهام في رؤية الكمبيوتر ومعالجة اللغات الطبيعية.في الآونة الأخيرة، تم اقتراح العديد من الطرق للحصول على رؤوس الرؤية واللغة لمعالجة التحديات عند تقاطع هذين المجالات الرئيسية في منظمة العفو الدولية.يمكن تصنيف هذه النماذج في تشفير دفق واحد أو دفق مزدوج.نحن ندرس الاختلافات بين هاتين الفئتين، وإظهار كيف يمكن موحد بموجب إطار نظري واحد.ثم نقوم بإجراء تجارب مراقبة لتمييز الاختلافات التجريبية بين خمسة الرؤية والصغيرة.تظهر تجاربنا أن البيانات التدريبية والضغط هي المسؤولة عن معظم الاختلافات بين النتائج المبلغ عنها، لكنها تكشف أيضا أن طبقة التضمين تلعب دورا حاسما في هذه النماذج الضخمة.
Abstract Large-scale pretraining and task-specific fine- tuning is now the standard methodology for many tasks in computer vision and natural language processing. Recently, a multitude of methods have been proposed for pretraining vision and language BERTs to tackle challenges at the intersection of these two key areas of AI. These models can be categorized into either single-stream or dual-stream encoders. We study the differences between these two categories, and show how they can be unified under a single theoretical framework. We then conduct controlled experiments to discern the empirical differences between five vision and language BERTs. Our experiments show that training data and hyperparameters are responsible for most of the differences between the reported results, but they also reveal that the embedding layer plays a crucial role in these massive models.
المراجع المستخدمة
https://aclanthology.org/
تم انتقاد التمثيل اللغوي المستمدة من النص وحده بسبب نقص الأساس، أي ربط الكلمات مع معانيها في العالم المادي.عرضت نماذج الرؤية واللغة (VL)، التي تم تدريبها بالاشتراك على نص بيانات النص والصورة أو الفيديو كرددا على مثل هذه الانتقادات.ومع ذلك، في حين أظه
تقوم هذه الدراسات الورقية بالتحويل عبر اللغات الصفرية إلى نماذج لغة الرؤية. على وجه التحديد، نركز على البحث عن نص متعدد اللغات والفيديو واقتراح نموذجا يستند إلى المحولات التي تتعلم أن تضمينات السياق متعددة اللغات متعددة اللغات. تحت إعداد طلقة صفرية،
اختارت الأبحاث متعددة الوسائط بشكل كبير في مساحة السؤال الرد على المهمة التي يتم تمديدها إلى السؤال المرئي الرد على الرسوم البيانية، والرسوم البيانية الإجابة عليها وكذلك مسألة مساهمة مدخل متعددة الوسائط.ومع ذلك، فإن كل هذه الاستكشافات تنتج إخراج نصي
تحليل المعنويات متعددة الوسائط (MSA) يرسم اهتماما متزايدا بتوافر بيانات متعددة الوسائط. يعوق دفعة في أداء نماذج MSA بشكل رئيسي بمشاكل. من ناحية، تعمل MSA الأخيرة على التركيز في الغالب على تعلم الديناميات عبر الوسائط، ولكن الإهمال لاستكشاف الحل الأمثل
أصبحت ميمات الإنترنت وسيلة قوية لنقل الأفكار السياسية والنفسية والاجتماعية الثقافية. على الرغم من أن الميمات هي روح الدعابة عادة، فقد شهدت الأيام الأخيرة تصعيدا من الأيمن الضارة المستخدمة في التصيد والتبريد الإلكتروني وسوء المعاملة. يكتشف مثل هذه الم