ترغب بنشر مسار تعليمي؟ اضغط هنا

التقييم للعديد من مهام فهم اللغة الطبيعية (NLU) مكسورة: النتيجة أنظمة غير موثوقة ومنحمة للغاية على المعايير القياسية التي توجد مساحة صغيرة للباحثين الذين يقومون بتطوير أنظمة أفضل لإظهار التحسينات الخاصة بهم.إن الاتجاه الأخير للتخلي عن معايير IID لصال ح مجموعات الاختبارات التي تم إنشاؤها المشدة، خارج التوزيع تضمن أن النماذج الحالية ستؤدي بشكل سيء، ولكن في نهاية المطاف تحجب القدرات التي نريد قياس معاييرنا.في ورقة الموقف هذه، نضع أربعة معايير نجد أن معايير NLU يجب أن تلبي.نجرب أن معظم المعايير الحالية تفشل في هذه المعايير، وأن جمع البيانات العديفية لا يعالج سلبيا أسباب هذه الإخفاقات.بدلا من ذلك، سيتطلب استعادة النظام الإيكولوجي للتقييم الصحي تقدما ملحوظا في تصميم مجموعات البيانات القياسية، والموثوقية التي يتم عرضها معها، وحجمها، والطرق التي تتعاملون مع التحيز الاجتماعي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا