تظهر هذه الورقة أن عصير التفاح، مقياس التقييم التقليدي لوصف الصورة، لا يعمل بشكل صحيح على مجموعات البيانات حيث يكون عدد الكلمات في الجملة أكبر بكثير من تلك الموجودة في مجموعة بيانات التسميات التوضيحية MS COCO.نظهر أيضا أن CIDER-D لديه أداء يعوقه عدم وجود جمل مرجعية متعددة والتباين العالي لطول الجملة.لتجاوز هذه المشكلة، نقدم Cider-R، الذي يحسن CIDER-D، مما يجعله أكثر مرونة في التعامل مع مجموعات البيانات ذات تباين طول الجملة.نوضح أن عصير التفاح هو أكثر دقة وأقرب من الحكم الإنساني من عصير التفاح.Cider-R هو أكثر قوة فيما يتعلق بعدد المراجع المتاحة.تكشف نتائجنا أن استخدام تدريب التسلسل الحرج الذاتي لتحسين عصير التفاح - يولد تعليقا وصفيا.في المقابل، عند تحسين CIDER-D، يميل طول التسميات التوضيحية التي تم إنشاؤها إلى أن تكون مشابهة للطول المرجعي.ومع ذلك، تكرر النماذج أيضا عدة مرات نفس الكلمة لزيادة طول الجملة.
This paper shows that CIDEr-D, a traditional evaluation metric for image description, does not work properly on datasets where the number of words in the sentence is significantly greater than those in the MS COCO Captions dataset. We also show that CIDEr-D has performance hampered by the lack of multiple reference sentences and high variance of sentence length. To bypass this problem, we introduce CIDEr-R, which improves CIDEr-D, making it more flexible in dealing with datasets with high sentence length variance. We demonstrate that CIDEr-R is more accurate and closer to human judgment than CIDEr-D; CIDEr-R is more robust regarding the number of available references. Our results reveal that using Self-Critical Sequence Training to optimize CIDEr-R generates descriptive captions. In contrast, when CIDEr-D is optimized, the generated captions' length tends to be similar to the reference length. However, the models also repeat several times the same word to increase the sentence length.
المراجع المستخدمة
https://aclanthology.org/
نقدم إجراء منهجي لقرار الخلاف الدولي.الإجراء عام، ولكن الاستخدام بشكل خاص في مهام التعليق المتعددة موجهة نحو بناء الحقيقة الأرضية.نقوم بحفز اقتراحنا من خلال القول بأن هدف الحالات التي يحظر فيها هدف الباحثين هو استنباط نقاط وجهة نظر مختلفة، فإن الخلاف
في هذه الورقة العلمية تعاملنا مع ثلاثة أنواع من التشاكلات بين مثاليين في حلقة (واحدية) R و هي:
تشاكل حلقي، و R ـ تشاكل مودولي، و تشاكل مثالي. و ذكرنا عدداً من الأمثلة على ذلك، و أثبتنا أن أسرة
المثاليات في الحلقة R مع (التشاكلات الحلقية، R ـ تشاكلا
حققت نماذج اللغة المدربة مسبقا (PTLMS) أداء مثير للإعجاب في معايير استنتاج المنطقية، لكن قدرتها على استخدام المناولة لإستنساخ قوي، وهو أمر ضروري للاتصالات الفعالة مع البشر،. في السعي لتحقيق الاتصالات السائل للاتصالات الإنسانية، نقترح تحديا جديدا، ريك
تناقش هذه الورقة نهجا قائما على التصنيف لتقييم الترجمة الآلي، بدلا من نهج قائم على الانحدار المشترك في مهمة مقاييس WMT.تعمل الترجمة الآلية الحديثة عادة بشكل جيد ولكن في بعض الأحيان تجعل الأخطاء الحرجة بسبب بعض خيارات كلمة خاطئة فقط.يركز نهجنا القائم
في هذه الورقة نقدم نموذج إكمال رمز التعلم العميق للغة R.نقدم عدة تقنيات لاستخدام الهندسة المعمارية القائمة على نمذجة اللغة في مهمة إكمال التعليمات البرمجية.مع هذه التقنيات، يتطلب النموذج موارد منخفضة، ولكن لا يزال يحقق جودة عالية.نقدم أيضا بيانات تقي