Noahqa: التفكير العددي مع الرسم البياني القابل للتفسير الإجابة على DataSet


الملخص بالعربية

في حين أن مجموعات بيانات الإجابة على الأسئلة المتنوعة (QA) اقترحت وساهمت بشكل كبير في تطوير نماذج التعلم العميق لمهام ضمان الجودة، فإن البيانات الحالية تقصر في جوانبين. أولا، نفتقر إلى مجموعات بيانات ضمان الجودة التي تغطي الأسئلة المعقدة التي تنطوي على إجابات بالإضافة إلى عمليات التفكير للحصول عليها. نتيجة لذلك، لا تزال أبحاث ضمنيا في ضمان الجودة العددية تركز على حسابات بسيطة ولا توفر التعبيرات الرياضية أو الأدلة التي تبرر الإجابات. ثانيا، ساهم مجتمع ضمان الجودة في الكثير من الجهد لتحسين إمكانية تفسير نماذج QA. ومع ذلك، فإنهم يفشلون في إظهار عملية التفكير صراحة، مثل أمر الأدلة من أجل التفكير والتفاعلات بين الأدلة المختلفة. لمعالجة العيب المذكور أعلاه، نقدم Noahqa ومجموعة بيانات QA محادثة وثنائية اللغة مع أسئلة تتطلب التفكير العددي مع التعبيرات الرياضية المركبة. مع Noahqa، نقوم بتطوير رسم بياني لتفكير قابل للتفسير بالإضافة إلى متري التقييم المناسب لقياس جودة الإجابة. نقوم بتقييم حديثة نماذج ضمان الجودة المدربة باستخدام مجموعات بيانات QA الحالية على Noahqa وإظهار أن الأفضل من بينها يمكن فقط تحقيق 55.5 عشر درجات مطابقة محددة، في حين أن الأداء البشري هو 89.7. نقدم أيضا نموذجا جديدا في ضمان الجودة لتوليد رسم بياني للمنطق حيث لا يزال متري الرسم البياني للمنطق فجوة كبيرة مقارنة بمركبات البشر، على سبيل المثال، 28 درجات.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث