يعد تقييم جيل اللغة الطبيعي (NLG) مهمة متعددة الأوجه تتطلب تقييم معايير متعددة المرغوبة، على سبيل المثال، الطلاقة، والاستماس، والتغطية، والأهمية، والكفاية، والجودة الكلية، وما إلى ذلك عبر مجموعات البيانات الحالية لمدة 6 مهام NLG، نلاحظ أن درجات التقييم البشري في هذه المعايير المتعددة غالبا ما لا يرتبط. على سبيل المثال، هناك ارتباط منخفض للغاية بين الدرجات البشرية على تغطية الطلاقة والبيانات لمهمة البيانات المنظمة إلى جيل النص. يشير هذا إلى أن الوصفة الحالية لاقتراح مقاييس تقييم تلقائية جديدة ل NLG من خلال إظهار أنها ترتبط بشكل جيد مع الدرجات التي حددها البشر لمعايير واحدة (الجودة الشاملة) وحدها غير كافية. في الواقع، فإن دراستنا الواسعة التي تنطوي على 25 مقيط تقييم تلقائي عبر 6 مهام مختلفة و 18 معايير تقييم مختلفة تظهر أنه لا يوجد متري واحد يرتبط جيدا بدرجات بشرية على جميع المعايير المرغوبة، لمعظم مهام NLG. بالنظر إلى هذا الوضع، نقترح قوائم المراجعة لتحسين تصميم وتقييم المقاييس التلقائية. نقوم بتصميم قوالب تستهدف معايير محددة (مثل التغطية) وإشراض الإنتاج بحيث تتأثر الجودة فقط على طول هذه المعايير المحددة (على سبيل المثال، قطرات التغطية). نظهر أن مقاييس التقييم الحالية ليست قوية ضد هذه الاضطرابات البسيطة ويعارضها في الدرجات المعينة من قبل البشر إلى الإخراج المضطرب. وبالتالي فإن القوالب المقترحة تسمح بتقييم جيد المحبوس لمقاييس التقييم التلقائي تعريض قيودها وسيسهل تصميم وتحليل وتقييم أفضل لهذه المقاييس. تتوفر قوالب ورمز لدينا في https://iitmnlp.github.io/evaleval/
Natural Language Generation (NLG) evaluation is a multifaceted task requiring assessment of multiple desirable criteria, e.g., fluency, coherency, coverage, relevance, adequacy, overall quality, etc. Across existing datasets for 6 NLG tasks, we observe that the human evaluation scores on these multiple criteria are often not correlated. For example, there is a very low correlation between human scores on fluency and data coverage for the task of structured data to text generation. This suggests that the current recipe of proposing new automatic evaluation metrics for NLG by showing that they correlate well with scores assigned by humans for a single criteria (overall quality) alone is inadequate. Indeed, our extensive study involving 25 automatic evaluation metrics across 6 different tasks and 18 different evaluation criteria shows that there is no single metric which correlates well with human scores on all desirable criteria, for most NLG tasks. Given this situation, we propose CheckLists for better design and evaluation of automatic metrics. We design templates which target a specific criteria (e.g., coverage) and perturb the output such that the quality gets affected only along this specific criteria (e.g., the coverage drops). We show that existing evaluation metrics are not robust against even such simple perturbations and disagree with scores assigned by humans to the perturbed output. The proposed templates thus allow for a fine-grained assessment of automatic evaluation metrics exposing their limitations and will facilitate better design, analysis and evaluation of such metrics. Our templates and code are available at https://iitmnlp.github.io/EvalEval/
References used
https://aclanthology.org/
While the field of style transfer (ST) has been growing rapidly, it has been hampered by a lack of standardized practices for automatic evaluation. In this paper, we evaluate leading automatic metrics on the oft-researched task of formality style tra
Code-mixing is a phenomenon of mixing words and phrases from two or more languages in a single utterance of speech and text. Due to the high linguistic diversity, code-mixing presents several challenges in evaluating standard natural language generat
Many modern machine translation evaluation metrics like BERTScore, BLEURT, COMET, MonoTransquest or XMoverScore are based on black-box language models. Hence, it is difficult to explain why these metrics return certain scores. This year's Eval4NLP sh
This paper presents the results of the WMT21 Metrics Shared Task. Participants were asked to score the outputs of the translation systems competing in the WMT21 News Translation Task with automatic metrics on two different domains: news and TED talks
In this paper, we present our submission to Shared Metrics Task: RoBLEURT (Robustly Optimizing the training of BLEURT). After investigating the recent advances of trainable metrics, we conclude several aspects of vital importance to obtain a well-per