ما وراء طرف جبل الجليد: تقييم تماسك نصوص النصوص


الملخص بالعربية

نظرا لأن طرازات لغة واسعة النطاق مدربة مسبقا تحقق دقة على المستوى البشري والأخبار الدقة على مهام فهم اللغة الحالية، دعت التحيز الإحصائي في البيانات القياسية والدراسات التحقيق مؤخرا إلى قدراتهم الحقيقية.للحصول على تقييم أكثر إعلانية من الدقة بشأن مهام تصنيف النص يمكن أن تقدم، نقترح تقييم أنظمة من خلال مقياس جديد لتماسك التنبؤ.نحن نطبق إطار عملنا على اثنين من التفاهم مع المعايير ذات الخصائص المختلفة لإظهار تنوعه.تبين نتائجنا التجريبية أن إطار التقييم هذا، على الرغم من بسيطة في الأفكار والتنفيذ، هو إجراء سريع وفعال وتنوعا لتوفير نظرة ثاقبة في تماسك تنبؤات الآلات.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث