لتفسير سلوك نموذج الاحتمالية، من المفيد قياس معايرة النموذج --- المدى الذي ينتج عنه درجات ثقة موثوقة.نحن نتطلع إلى مشكلة المعايرة المفتوحة لوضع العلامات النماذج ذات الأشكال المتناقضة، والتوصية باستراتيجيات لقياس وتقليل خطأ المعايرة (CE) في هذه النماذج.نظهر أن العديد من تقنيات إعادة التدوير بعد المخصص كلها تقلل من خطأ المعايرة عبر التوزيع الهامشي لطاغين تسلسلين موجودين.علاوة على ذلك، نقترح مجموعة تجميع الترددات (TFG) كوسيلة لقياس خطأ المعايرة في نطاقات التردد المختلفة.علاوة على ذلك، يعزز إعادة معايرة كل مجموعة بشكل منفصل تخفيض أكثر إنصافا لخطأ المعايرة عبر طيف تردد العلامات.
For interpreting the behavior of a probabilistic model, it is useful to measure a model's calibration---the extent to which it produces reliable confidence scores. We address the open problem of calibration for tagging models with sparse tagsets, and recommend strategies to measure and reduce calibration error (CE) in such models. We show that several post-hoc recalibration techniques all reduce calibration error across the marginal distribution for two existing sequence taggers. Moreover, we propose tag frequency grouping (TFG) as a way to measure calibration error in different frequency bands. Further, recalibrating each group separately promotes a more equitable reduction of calibration error across the tag frequency spectrum.
المراجع المستخدمة
https://aclanthology.org/
تم حل معايير المنطق المنطقي إلى حد كبير عن طريق نماذج لغة ضبط دقيقة. الجانب السلبي هو أن الضبط الدقيق قد يتسبب في طرح نماذج إلى البيانات الخاصة بمهام المهام وبالتالي انسوا معرفتهم المكتسبة خلال التدريب المسبق. تعمل الأعمال الحديثة فقط على اقتراح تحدي
نماذج لغة محول كبيرة مدربة مسبقا، والتي تكون منتشرة في مهام معالجة اللغة الطبيعية، تكون مكلفة للغاية للتدريب. لتقليل تكلفة التدريب هذه النماذج الكبيرة، طورت العمل السابق طرزا أصغر وأكثر ضغطا تحقق تسريعا كبيرا في وقت التدريب مع الحفاظ على دقة تنافسية
ألهمت البحوث اللغوية الحسابية على تغيير اللغة من خلال نماذج التوزيع الدلالي (DS) باحثين من مجالات مثل الفلسفة والدراسات الأدبية، الذين يستخدمون هذه الأساليب لاستكشاف ومقارنة مجموعات البيانات الصغيرة النسبية نسبيا تحليلها تقليديا عن طريق القراءة الدقي
غالبا ما تفسر النماذج التجريدية للمسألة، وكلاء الحوار، والتلخيص معنى الجملة في سياق غني واستخدام هذا المعنى في سياق جديد. يمكن أن يكون أخذ مقتطفات النص مشكلة، لأن القطع الرئيسية قد لا تكون واضحة في نافذة محلية. لقد عزلت وحدد مشكلة الحكم من الحكم: أخذ
إن المعايير الدولية لضمان الجودة و الكفاءة لمختبرات الفحص و المعايرة ، و التي تتبناها
المنظمة الدولية للمعايير (أيزو ISO) كانت تعرف و اللجنة الدولية للتقانة الكهربائية (IEC)
سابقاً بدليلISO GUIDE 25 إلا أن المواصفة المعمول بها الآن هي المواصفة ،
القياسية الدولية ISO/IEC 17025:2005.