في حين أن مجموعات بيانات الإجابة على الأسئلة المتنوعة (QA) اقترحت وساهمت بشكل كبير في تطوير نماذج التعلم العميق لمهام ضمان الجودة، فإن البيانات الحالية تقصر في جوانبين. أولا، نفتقر إلى مجموعات بيانات ضمان الجودة التي تغطي الأسئلة المعقدة التي تنطوي على إجابات بالإضافة إلى عمليات التفكير للحصول عليها. نتيجة لذلك، لا تزال أبحاث ضمنيا في ضمان الجودة العددية تركز على حسابات بسيطة ولا توفر التعبيرات الرياضية أو الأدلة التي تبرر الإجابات. ثانيا، ساهم مجتمع ضمان الجودة في الكثير من الجهد لتحسين إمكانية تفسير نماذج QA. ومع ذلك، فإنهم يفشلون في إظهار عملية التفكير صراحة، مثل أمر الأدلة من أجل التفكير والتفاعلات بين الأدلة المختلفة. لمعالجة العيب المذكور أعلاه، نقدم Noahqa ومجموعة بيانات QA محادثة وثنائية اللغة مع أسئلة تتطلب التفكير العددي مع التعبيرات الرياضية المركبة. مع Noahqa، نقوم بتطوير رسم بياني لتفكير قابل للتفسير بالإضافة إلى متري التقييم المناسب لقياس جودة الإجابة. نقوم بتقييم حديثة نماذج ضمان الجودة المدربة باستخدام مجموعات بيانات QA الحالية على Noahqa وإظهار أن الأفضل من بينها يمكن فقط تحقيق 55.5 عشر درجات مطابقة محددة، في حين أن الأداء البشري هو 89.7. نقدم أيضا نموذجا جديدا في ضمان الجودة لتوليد رسم بياني للمنطق حيث لا يزال متري الرسم البياني للمنطق فجوة كبيرة مقارنة بمركبات البشر، على سبيل المثال، 28 درجات.
While diverse question answering (QA) datasets have been proposed and contributed significantly to the development of deep learning models for QA tasks, the existing datasets fall short in two aspects. First, we lack QA datasets covering complex questions that involve answers as well as the reasoning processes to get them. As a result, the state-of-the-art QA research on numerical reasoning still focuses on simple calculations and does not provide the mathematical expressions or evidence justifying the answers. Second, the QA community has contributed a lot of effort to improve the interpretability of QA models. However, they fail to explicitly show the reasoning process, such as the evidence order for reasoning and the interactions between different pieces of evidence. To address the above shortcoming, we introduce NOAHQA, a conversational and bilingual QA dataset with questions requiring numerical reasoning with compound mathematical expressions. With NOAHQA, we develop an interpretable reasoning graph as well as the appropriate evaluation metric to measure the answer quality. We evaluate the state-of-the-art QA models trained using existing QA datasets on NOAHQA and show that the best among them can only achieve 55.5 exact match scores, while the human performance is 89.7. We also present a new QA model for generating a reasoning graph where the reasoning graph metric still has a large gap compared with that of humans, eg, 28 scores.
المراجع المستخدمة
https://aclanthology.org/
يمكن إلقاء العديد من الأسئلة المفتوحة على المشكلات بمثابة مهمة استقامة نصية، حيث يتم تسليم الإجابات السؤال والمرشح لتشكيل الفرضيات. ثم يحدد نظام ضمان الجودة إذا كان قواعد المعرفة الداعمة، التي تعتبر مباني محتملة، تنطوي على الفرضيات. في هذه الورقة، نح
الإجابة على الأسئلة الأساسية للمعرفة (KBQA) هي الإجابة على أسئلة اللغة الطبيعية المطروحة على قواعد المعرفة (KBS).هذه الأهداف الورقية في تمكين نماذج KBQA القائمة على IR مع قدرة المنطق العددي للإجابة على أسئلة مقيدة ترتيبية.التحدي الرئيسي هو عدم وجود ش
تم استخدام شبكة الرسم العصبي الرسمية مؤخرا كأداة واعدة في مهمة الإجابة على السؤال المتعدد القفزات. ومع ذلك، فإن التحديثات غير الضرورية والإنشاءات الحافة البسيطة تمنع استخراج سبان إجابة دقيقة بطريقة أكثر مباشرة وتفسيرها. في هذه الورقة، نقترح نموذجا جد
مهارات التفكير العددي ضرورية للإجابة على الأسئلة المعقدة (CQA) على النص.يتطلب opertaions بما في ذلك العد والمقارنة والإضافة والطرح.يتبع نهج ناجح في CQA على النص، وشبكات الوحدات النمطية العصبية (NMNS)، تتبع نموذج المبرمج ومترجم البرامج النمطية النمطية
إن حجم البيانات المالية الهائلة يجعل من الصعب الوصول إلى البشر ويحللون قطاع الأعمال. تواجه المنطق العددي القوي بالمثل تحديات فريدة من نوعها في هذا المجال. في هذا العمل، نركز على الإجابة على الأسئلة العميقة على البيانات المالية، تهدف إلى أتمتة تحليل ل