تم الاعتماد بشكل تقليدي في الصورة على التقييمات التلقائية القائمة على المرجع، حيث يتم مقارنة تعليق الآلات مع التسميات التوضيحية التي كتبها البشر. هذا على النقيض من الطريقة الخالية من المرجعية التي يقوم بها البشر بجودة التسمية التوضيحية. في هذه الورقة، نبلغ عن النتيجة التجريبية المدهشة التي كليب (Radford et al.، 2021)، نموذج متعدد الوسائط مسبقا على أزواج من صورة 400 متر + التسمية التوضيحية من الويب، يمكن استخدامه للتقييم التلقائي القوي لمعالجة الصور دون الحاجة للحصول على المراجع. تثبت التجارب التي تمتد من عدة شرجي أن قيصرنا الجديد المجاني، مقطورات، يحقق أعلى ارتباط بالأحكام البشرية، مما يتفوق على المقاييس القائمة على المرجع الحالي مثل عصير التفاح والتوابل. تثبت تجارب الحصول على المعلومات على أن Clipscore، مع تركيزها الضيق على توافق نص الصورة، هو تكميلية للمقاييس القائمة على مرجعية موجودة تؤكد على أوجه التشابه النصي النصي. وبالتالي، نقدم أيضا نسخة معدنية مرجعية، Refclipscore، والذي يحقق حتى ارتباط أعلى. تتجاوز مهام الوصف الحرفي، تكشف العديد من دراسات الحالة المجالات التي تنفذ فيها clipscore جيدا (صور Clip-Art، تصنيف النص)، ولكن أيضا حيث إنها أضعف نسبيا مقارنة بالمقاييس المستندة إلى المراجع، على سبيل المثال، التسميات التوضيحية الإخبارية التي تتطلب معرفة سياقية أكثر ثراء وبعد