Gandalf: اسم الشخصيات العامة الوصف DataSet لخيال طويل


الملخص بالعربية

تقدم هذه الورقة مجموعة بيانات مسؤولة متعددة الخيارات متعددة المدى (QA)، بناء على نصوص كتاب الخيال الكامل الطول. يتم صياغة الأسئلة كأسئلة متعددة الخيارات ذات 10 اتجاهين، حيث تتمثل المهمة في تحديد اسم الحرف الصحيح مع إعطاء وصف حرفي أو نائبا للعكس. يتم صياغة كل وصف حرف في النص الطبيعي وغالبا ما يحتوي على معلومات من عدة أقسام في جميع أنحاء الكتاب. نحن نقدم 20،000 سؤال تم إنشاؤه من 10،000 أوصاف مشروح يدويا من الشخصيات من 177 كتابا تحتوي على 152،917 كلمة في المتوسط. نحن نتطلع إلى الخطاب الحالي فيما يتعلق بتحيز DataSet والتسرب بواسطة إجراء مجهول بسيط، مما يتيح بدوره إمكانيات التحقيق المثيرة للاهتمام. أخيرا، نظهر أن خوارزميات الأساس المناسبة تؤدي بشكل سيء للغاية في هذه المهمة، مع حجم الكتاب نفسه مما يجعله غير تافهة لمحاولة حل ضمان الجودة القائم على المحولات. هذا يترك مجالا واسعا للتحسين في المستقبل، وتلميحات في الحاجة إلى نوع مختلف تماما من الحل.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث