ترغب بنشر مسار تعليمي؟ اضغط هنا

معظم الوقت، عند التعامل مع مهمة معينة لمعالجة اللغة الطبيعية، تتم مقارنة الأنظمة على أساس الإحصاءات العالمية مثل الاستدعاء والدقة ودرجة F1، وما إلى ذلك، بينما توفر هذه الدرجات فكرة عامة عن سلوك هذه الأنظمة، إنهم يتجاهلون جزءا رئيسيا من المعلومات التي يمكن أن تكون مفيدة لتقييم التقدم المحرز والتحديات المتبقية المتميزة: الصعوبة النسبية في حالات الاختبار. لمعالجة هذا القصور، نقدم فكرة التقييم التفاضلي الذي يحدد فعليا التقسيم العملي من الحالات في صناديق أكثر صعوبة تدريجيا من خلال الاستفادة من التنبؤات التي قدمتها مجموعة من الأنظمة. تمكننا مقارنة الأنظمة على طول صناديق الصعوبة هذه أن تنتجنا تحليلا مدققا لأسعارها النسبية، والتي نوضحها على حالتي الاستخدام: مقارنة بين النظم المشاركة في مهمة تصنيف النص متعدد الملصقات (CLF EHENGE 2018 ICD-10 ICD-10 )، ومقارنة النماذج العصبية المدربة للكشف عن الكيانات الطبية الحيوية (مجموعة بيانات علاقات الأمراض الكيميائية الثنائية الطبيوم الكيميائية).
في هذه الورقة، نقترح نظام التحقق والتحقق من حقائق جديدة للتحقق من مطالبات محتوى ويكيبيديا.يسترد نظامنا صفحات ويكيبيديا ذات الصلة باستخدام Anserini، ويستخدم نموذج الإجابة على السؤال من Bert-Bert-bert-Berted لتحديد الأدلة الصحيحة، وتحقق من المطالبات با ستخدام نموذج الاستدلال باللغة الطبيعية XLNet بمقارنتها بالأدلة.يتم الحصول على أدلة خلية الجدول من خلال البحث عن قيم الخلايا المطابقة للكيان وسؤال الجدول Tapas نموذج الرد على نموذج.يستخدم خط الأنابيب إمكانيات الطلقة الصفرية للنماذج الحالية وجميع النماذج المستخدمة في خط الأنابيب لا يتطلب أي تدريب إضافي.حصل نظامنا على درجة حمامة من 0.06 ودقة ملصقة تبلغ 0.39 في التحدي الحمير.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا