نظرا للجهود المعجدة والإدراكية المتورطة في التوليد اليدوي من تعليق واحد لكل إدخال الصورة / الفيديو، فإن موارد الشروح البشرية محدودة للغاية لتسمية المهام. نحن نحدد كفاءة الموارد اللغوية باعتبارها تصل إلى نفس الأداء مع التوضيحية المشروحة أقل لكل مدخلات. ندرس أولا تدهور أداء نماذج التسمية التوضيحية في إعدادات موارد لغة مختلفة. يظهر تحليل نماذج التسمية التوضيحية مع خسارة SC أن تدهور الأداء ناتج عن تقدير المكافأة بشكل متزايد للمكافآت والأساس مع عدد أقل من الموارد اللغوية. لتخفيف هذه المشكلة، نقترح تقليل تباين الضوضاء في الأساس عن طريق تعميم المقارنة الزوجية الفردية في فقدان SC واستخدام مقارنات الزوجية المتعددة المتعمدة. يقيس المقارنة الزوجية المعممة (GPC) الفرق بين درجات التقييم التوضيحتين فيما يتعلق بالإدخال. وإظهار تجريبيا، نظرا لأن النموذج الذي تم تدريبه مع فقدان GPC المقترح فعالا على مورد اللغة وتحقق أداء مماثل مع النماذج الحديثة على MSCOC باستخدام نصف موارد اللغة فقط. علاوة على ذلك، تتفوق نموذجنا بشكل كبير على النماذج الحديثة على مجموعة بيانات تعليق الفيديو التي تحتوي على علامة تعليق واحدة فقط لكل إدخال في مجموعة التدريب.