نحن نبحث في التمثيلات التي تعلمناها عن طريق الرؤية ونماذج اللغة في المهام التي تتطلب التفكير العلائقي.مع التركيز على مشكلة تقييم الحجم النسبي للكائنات في السياقات البصرية مجردة، نحلل منطق واحد وخطوتين.بالنسبة لهذا الأخير، نبني مجموعة بيانات جديدة من مشاهد ثلاثية وتحدد مهمة تتطلب منطق على مستوى الصور الفردية وعبر الصور في مشهد.نحن نبذل تمثيلات النموذج المستفادة باستخدام مصنفات التشخيص.تظهر تجاربنا أن الهندسة المعاد المسبدة مسبقا القائمة على المحولات يمكن أن تؤدي من التفكير العلائقي المستوى الأعلى، وهي قادرة على تعلم تمثيلات المهام والبيانات الجديدة التي تختلف عن ما شوهد في الاحتجاج.