ترغب بنشر مسار تعليمي؟ اضغط هنا

نماذج التلخيص الحديثة تولد بطلاقة للغاية ولكن في كثير من الأحيان مخرجات غير موثوق بها في كثير من الأحيان.هذه الدافع الطفرة من المقاييس التي تحاول قياس واقعية الملخصات التي تم إنشاؤها تلقائيا.نظرا لعدم وجود معايير مشتركة، لا يمكن مقارنة هذه المقاييس.ع لاوة على ذلك، فإن كل هذه الطرق تعالج الواقعية كمفهوم ثنائي وفشل في توفير رؤى أعمق على أنواع التناقضات التي أدلى بها أنظمة مختلفة.لمعالجة هذه القيود، نرتند نماذج من الأخطاء الواقعية واستخدامها لجمع التعليقات التوضيحية الإنسانية من الملخصات التي تم إنشاؤها من أنظمة التلخيص الحديثة عن البيانات الخاصة ب CNN / DM و XSUM.من خلال هذه التعليقات التوضيحية، نحدد نسبة الفئات المختلفة للأخطاء الواقعية ومقاييس التقويمات القياسية، والتي تبين ارتباطها بالحكم البشري بالإضافة إلى نقاط القوة والضعف المحددة.
التقييم للعديد من مهام فهم اللغة الطبيعية (NLU) مكسورة: النتيجة أنظمة غير موثوقة ومنحمة للغاية على المعايير القياسية التي توجد مساحة صغيرة للباحثين الذين يقومون بتطوير أنظمة أفضل لإظهار التحسينات الخاصة بهم.إن الاتجاه الأخير للتخلي عن معايير IID لصال ح مجموعات الاختبارات التي تم إنشاؤها المشدة، خارج التوزيع تضمن أن النماذج الحالية ستؤدي بشكل سيء، ولكن في نهاية المطاف تحجب القدرات التي نريد قياس معاييرنا.في ورقة الموقف هذه، نضع أربعة معايير نجد أن معايير NLU يجب أن تلبي.نجرب أن معظم المعايير الحالية تفشل في هذه المعايير، وأن جمع البيانات العديفية لا يعالج سلبيا أسباب هذه الإخفاقات.بدلا من ذلك، سيتطلب استعادة النظام الإيكولوجي للتقييم الصحي تقدما ملحوظا في تصميم مجموعات البيانات القياسية، والموثوقية التي يتم عرضها معها، وحجمها، والطرق التي تتعاملون مع التحيز الاجتماعي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا