مراجعات المنتج ومسوحات الرضا البحث عن ملاحظات العملاء في شكل المقاييس المرتبة. في هذه الإعدادات، فإن مقاييس التقييم المستخدمة على نطاق واسع بما في ذلك F1 والدقة تتجاهل المرتبة في الردود (على سبيل المثال، على الأرجح "من المحتمل أن تكون على الأرجح"). في هذه الورقة، نفترض أن ترتيب قيم الفصل مهم لتقييم المصنفين على المتغيرات المستهدفة الترتيبية ويجب عدم الانتهاء. لاختبار هذه الفرضية، قارنا تصنيف التصنيف متعدد الفئة (MC) والانحدار الترتيبي (أو) من خلال تطبيق أو و MC إلى المهام القياسية التي تنطوي على متغيرات مستهدفة ترتيبية باستخدام نفس الهندسة المعمارية الأساسية الأساسية. تظهر النتائج التجريبية أنه في حين أن MC تفوق أو لبعض مجموعات البيانات في الدقة و F1، أو أفضل بكثير من MC لتقليل الخطأ بين التنبؤ والهدف لجميع المعايير، كما هو موضح بواسطة مقاييس حساسة للخطأ، E.G. خطأ متوسط التربيع (MSE) وارتباط سبيرمان. تحفز النتائج الخاصة بنا الحاجة إلى إنشاء مقاييس متسقة حساسة للخطأ لتقييم المعايير مع المتغيرات المستهدفة الترتيبية، ونأمل أن تحفز الاهتمام باستكشاف الخسائر البديلة للمشاكل الترتيبية.
Product reviews and satisfaction surveys seek customer feedback in the form of ranked scales. In these settings, widely used evaluation metrics including F1 and accuracy ignore the rank in the responses (e.g., very likely' is closer to likely' than not at all'). In this paper, we hypothesize that the order of class values is important for evaluating classifiers on ordinal target variables and should not be disregarded. To test this hypothesis, we compared Multi-class Classification (MC) and Ordinal Regression (OR) by applying OR and MC to benchmark tasks involving ordinal target variables using the same underlying model architecture. Experimental results show that while MC outperformed OR for some datasets in accuracy and F1, OR is significantly better than MC for minimizing the error between prediction and target for all benchmarks, as revealed by error-sensitive metrics, e.g. mean-squared error (MSE) and Spearman correlation. Our findings motivate the need to establish consistent, error-sensitive metrics for evaluating benchmarks with ordinal target variables, and we hope that it stimulates interest in exploring alternative losses for ordinal problems.
References used
https://aclanthology.org/
Non-autoregressive Transformer is a promising text generation model. However, current non-autoregressive models still fall behind their autoregressive counterparts in translation quality. We attribute this accuracy gap to the lack of dependency model
The modern era is witnessing a tangible development in all fields of science . As a result of this development , there is a growing need for statistical methods to solve the problems facing workers in these fields.
The stance detection task aims at detecting the stance of a tweet or a text for a target. These targets can be named entities or free-form sentences (claims). Though the task involves reasoning of the tweet with respect to a target, we find that it i
The research focuses on the demands on the study of the total investment evolution,
agricultural, investment and knowledge of the nature of the changes taking place during the
period (2000-2011), and evaluate the performance of the economy and its
This paper discusses a classification-based approach to machine translation evaluation, as opposed to a common regression-based approach in the WMT Metrics task. Recent machine translation usually works well but sometimes makes critical errors due to