أثار العمل الحديث مخاوف بشأن القيود المتأصلة للاحتجاج بالنص. في هذه الورقة، نوضح أولا أن الإبلاغ عن التحيز، ميل لا يذكر أن الواضح، هو أحد أسباب هذا القيد، ثم التحقيق في أي مدى يمكن للتدريب المتعدد الوسائط تخفيف هذه المشكلة. لإنجاز هذا، نحن 1) إنشاء مجموعة بيانات اللون (CODA)، مجموعة بيانات من توزيعات الألوان التي طالبي الإنسان 521 كائنات مشتركة؛ 2) استخدم Coda لتحليل ومقارنة توزيع الألوان الموجود في النص، والتوزيع الذي تم التقاطه بواسطة نماذج اللغة، وتصور الإنسان للون؛ و 3) التحقيق في اختلافات الأداء بين النماذج النصية فقط والنماذج متعددة الوسائط على CODA. تظهر نتائجنا أن توزيع الألوان التي يتعافها نموذج اللغة تعاد ترتبط بقوة أكبر بتوزيع غير دقيق موجود في نصا أكثر من الحقيقة الأرضية، مما يدعم الادعاء بأن الإبلاغ عن التحيز يؤثر سلبا على تدريب سلبي ويحد تدريبا بطبيعته على التدريب فقط. ثم نوضح أن النماذج متعددة الوسائط يمكن أن تستفيد من التدريب البصري لتخفيف هذه الآثار، مما يوفر وسيلة واعدة للبحث في المستقبل.