تقدم هذه الورقة مجموعة بيانات مسؤولة متعددة الخيارات متعددة المدى (QA)، بناء على نصوص كتاب الخيال الكامل الطول. يتم صياغة الأسئلة كأسئلة متعددة الخيارات ذات 10 اتجاهين، حيث تتمثل المهمة في تحديد اسم الحرف الصحيح مع إعطاء وصف حرفي أو نائبا للعكس. يتم صياغة كل وصف حرف في النص الطبيعي وغالبا ما يحتوي على معلومات من عدة أقسام في جميع أنحاء الكتاب. نحن نقدم 20،000 سؤال تم إنشاؤه من 10،000 أوصاف مشروح يدويا من الشخصيات من 177 كتابا تحتوي على 152،917 كلمة في المتوسط. نحن نتطلع إلى الخطاب الحالي فيما يتعلق بتحيز DataSet والتسرب بواسطة إجراء مجهول بسيط، مما يتيح بدوره إمكانيات التحقيق المثيرة للاهتمام. أخيرا، نظهر أن خوارزميات الأساس المناسبة تؤدي بشكل سيء للغاية في هذه المهمة، مع حجم الكتاب نفسه مما يجعله غير تافهة لمحاولة حل ضمان الجودة القائم على المحولات. هذا يترك مجالا واسعا للتحسين في المستقبل، وتلميحات في الحاجة إلى نوع مختلف تماما من الحل.
This paper introduces a long-range multiple-choice Question Answering (QA) dataset, based on full-length fiction book texts. The questions are formulated as 10-way multiple-choice questions, where the task is to select the correct character name given a character description, or vice-versa. Each character description is formulated in natural text and often contains information from several sections throughout the book. We provide 20,000 questions created from 10,000 manually annotated descriptions of characters from 177 books containing 152,917 words on average. We address the current discourse regarding dataset bias and leakage by a simple anonymization procedure, which in turn enables interesting probing possibilities. Finally, we show that suitable baseline algorithms perform very poorly on this task, with the book size itself making it non-trivial to attempt a Transformer-based QA solution. This leaves ample room for future improvement, and hints at the need for a completely different type of solution.
References used
https://aclanthology.org/
We introduce the new task of domain name dispute resolution (DNDR), that predicts the outcome of a process for resolving disputes about legal entitlement to a domain name. TheICANN UDRP establishes a mandatory arbitration process for a dispute betwee
We propose CodeQA, a free-form question answering dataset for the purpose of source code comprehension: given a code snippet and a question, a textual answer is required to be generated. CodeQA contains a Java dataset with 119,778 question-answer pai
This research provides a presentation of the character concept as
a basic artistic element in the novel's structure, according to the
structural concept, then it provides the character analysis in A
bdoul Karim Nassif's "Al Makhtoofoon", presentin
Many datasets have been created for training reading comprehension models, and a natural question is whether we can combine them to build models that (1) perform better on all of the training datasets and (2) generalize and transfer better to new dat
Neural encoders of biomedical names are typically considered robust if representations can be effectively exploited for various downstream NLP tasks. To achieve this, encoders need to model domain-specific biomedical semantics while rivaling the univ