نحن نبحث في التمثيلات التي تعلمناها عن طريق الرؤية ونماذج اللغة في المهام التي تتطلب التفكير العلائقي.مع التركيز على مشكلة تقييم الحجم النسبي للكائنات في السياقات البصرية مجردة، نحلل منطق واحد وخطوتين.بالنسبة لهذا الأخير، نبني مجموعة بيانات جديدة من مشاهد ثلاثية وتحدد مهمة تتطلب منطق على مستوى الصور الفردية وعبر الصور في مشهد.نحن نبذل تمثيلات النموذج المستفادة باستخدام مصنفات التشخيص.تظهر تجاربنا أن الهندسة المعاد المسبدة مسبقا القائمة على المحولات يمكن أن تؤدي من التفكير العلائقي المستوى الأعلى، وهي قادرة على تعلم تمثيلات المهام والبيانات الجديدة التي تختلف عن ما شوهد في الاحتجاج.
We investigate the representations learned by vision and language models in tasks that require relational reasoning. Focusing on the problem of assessing the relative size of objects in abstract visual contexts, we analyse both one-step and two-step reasoning. For the latter, we construct a new dataset of three-image scenes and define a task that requires reasoning at the level of the individual images and across images in a scene. We probe the learned model representations using diagnostic classifiers. Our experiments show that pretrained multimodal transformer-based architectures can perform higher-level relational reasoning, and are able to learn representations for novel tasks and data that are very different from what was seen in pretraining.
المراجع المستخدمة
https://aclanthology.org/
أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال
غالبا ما يتطلب الإجابة على السؤال المجمع إيجاد سلسلة من التفكير يتكون من قطع أدلة متعددة.تتضمن الأساليب الحالية نقاط قوة المعرفة والنص غير منظم، بافتراض النص النحاسي نصف منظم.بناء على طرق استرجاع كثيفة، نقترح نهجا جديدا استرجاع متعدد الخطوات (BEAMDR)
تهدف الترجمة متعددة الوسائط (MMT) إلى تحسين أداء الترجمة من خلال دمج المعلومات المرئية. معظم الدراسات الاستفادة من المعلومات المرئية من خلال دمج ميزات الصورة العالمية كمدخل إضافي أو فك تشفير من خلال حضور المناطق المحلية ذات الصلة في الصورة. ومع ذلك،
تعاني ترجمة الآلات العصبية التي تعتمد على نص ثنائي اللغة مع بيانات تدريبية محدودة من التنوع المعجمي، والتي تقلل من دقة ترجمة الكلمات النادرة وتقلص من تعميم نظام الترجمة.في هذا العمل، نستخدم التسميات التوضيحية المتعددة من مجموعة بيانات متعددة 30 ألفا
شروط الارتفاع استخراج (أكلت) وتصنيف معنويات الجانب (ASC) هي مهمتان أساسيتان من المهام الفرعية الأساسية والغرامة في تحليل المعنويات على مستوى الجانب (ALSA). في التحليل النصي، تم استخراج المشترك استخراج كل من شروط الارتفاع وأقطاب المعنويات كثيرا بسبب ط