في التسمية التوضيحية للصورة، غالبا ما يتم توفير التسميات التوضيحية المتعددة كحقائق أرضية، لأن التسمية التوضيحية الصالحة ليست مصممة بشكل فريد.الأساليب التقليدية حدد بشكل عشوائي توضيحية واحدة وتعاملها على أنها صحيحة، ولكن كانت هناك عدد قليل من طرق التدريب الفعالة التي تستخدم عمليات توضيحية متعددة المعينة.في هذه الورقة، اقترحنا تقنية تدريبين لاتخاذ استخدام فعال للتسميات التوضيحية المرجعية المتعددة: 1) أخذ عينات التسمية التوضيحية المستندة إلى الصلاحية (VBCS)، والتي تعطي الأولوية لاستخدام التسميات التوضيحية التي تقدر أنها صالحة للغاية أثناء التدريب، و 2) التسمية التوضيحية المرجحتجانس (WCS)، والتي تنطبج فقط على الكلمات ذات الصلة التسمية التوضيحية المرجعية لتعكس التعويضات المرجعية المتعددة في وقت واحد.تظهر التجارب أن أساليبنا المقترحة تعمل على تحسين عصير التفاح بمقدار 2.6 نقطة وبليست بنسبة 0.9 نقطة من خط الأساس في مجموعة بيانات MSCOCO.