ترغب بنشر مسار تعليمي؟ اضغط هنا

QED: إطار ومجموعات بيانات للتفسيرات في الإجابة على السؤال

QED: A Framework and Dataset for Explanations in Question Answering

275   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يوفر نظام الإجابة على الأسئلة التي توفر إجابة بالإضافة إلى تقديم إجابة تفسير للمنطق الذي يؤدي إلى تلك الإجابة بمزايا محتملة من حيث الناضجة والتمويل والثقة. تحقيقا لهذه الغاية، نقترح QED، إطارا غير قابل للتوسيع على الإبلاغ عن التفسيرات على الإبلاغ عن التفسيرات. يحدد Explanation QED العلاقة بين سؤال وجواب وفقا لمفاهيم الدلالية الرسمية مثل المساواة المرجعية والعصا والتنفيذية. وصفنا علنا ​​أن نطلق علنا ​​عن مجموعة بيانات مشروح من التفسيرات QED التي بنيت مجموعة فرعية من مجموعة بيانات أسئلة Google الطبيعية، وتقديم تقرير نماذج أساسية في مهمتين --- جيل التفسير بعد الوظائف بالنظر إلى إجابة ورد على سؤال مشترك وإجابة تفسير وبعد في الإعداد المشترك، تشير النتيجة الواعدة إلى أن التدريب على كمية صغيرة نسبيا من بيانات QED يمكن أن يحسن الإجابة على السؤال. بالإضافة إلى وصف الدوافع الرسمية والنورات الرسمية لنهج QED، فإننا نصف دراسة مستخدمين كبيرة تبين أن وجود تفسيرات QED يحسن بشكل كبير من قدرة الفئات غير المدربة على الأخطاء التي قدمتها خط الأساس القوي العصبي القوي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

ركزت أبحاث NLP باللغة العبرية إلى حد كبير على التورفولوجيا وبناء جملة، حيث تتوفر مجموعات البيانات المشروحة الغنية بروح التبعيات العالمية.ومع ذلك، تعد مجموعات البيانات الدلالية في العرض القصير، مما يعوق السلف الحاسم في تطوير تكنولوجيا NLP باللغة العبر ية.في هذا العمل، نقدم البسجة، والسؤال الأول يجيب على DataSet في العبرية الحديثة.تتبع DataSet التنسيق والتعبئة المنهجية من المنهجية من التدقيق، وتحتوي على ما يقرب من 3000 من الأمثلة المشروحة، مماثلة لمجموعات بيانات الإجابة على الأسئلة الأخرى بلغات الموارد المنخفضة.نحن نقدم نتائج خط الأساس الأولى باستخدام نماذج مصممة على طراز برت صدر مؤخرا للعبرية، مما يدل على أن هناك مجالا مهما للتحسين في هذه المهمة.
تصف هذه الدراسة تطوير سؤال مجتمعي برتغالي يرد على معيار في مجال ميليتوس السكري باستخدام نهج إيصال الأسئلة المعترف به (RQE). بالنظر إلى سؤال الفرضية، يهدف RQE إلى استرداد أسئلة متشابهة دلالة الشكل، أجاب بالفعل على أرشفة. إننا نبني كوربا رئيسيا باللغة البرتغالية مع 785 زوجا بين أسئلة الفرضية وأرشفة الأسئلة الإجابة تميزت بأحكام الأهمية من قبل خبراء طبيين. استنادا إلى Corpus القياسي، فإننا نستفيد وتقييم العديد من نهج RQE تتراوح من أساليب استرجاع المعلومات التقليدية إلى نماذج اللغة الكبيرة المدربة مسبقا وتقنيات الفرقة باستخدام مناهج التعلم إلى رتبة. تظهر نتائجنا التجريبية أن الأسلوب الإشراف على المحولات المدربين مدربا بلغات متعددة ومهام متعددة (موسى) يتفوق على البدائل. تظهر نتائجنا أيضا أن فروع الأساليب (التراص) بالإضافة إلى طريقة استرجاع المعلومات (الضوء) التقليدية (BM25) يمكن أن تنتج نتائج تنافسية. أخيرا، من بين الاستراتيجيات التي تم اختبارها، فإن أولئك الذين يستغلون سوى السؤال (وليس الإجابة)، وتقديم أفضل مفاضلة كفاءة الفعالية. الرمز متاح علنا.
مجردة ملكية مرغوبة لمتري التقييم المرجعي تقيس جودة محتوى الملخص هو أنه ينبغي أن يقدر مقدار المعلومات التي لدى الملخص مشتركا مع مرجع. لا يتداخل النص التقليدي المقاييس المستندة إلى النص مثل Rouge لتحقيق ذلك لأنهم يقتصرون على مطابقة الرموز، إما متعمدة أ و عبر Embeddings. في هذا العمل، نقترح متريا لتقييم جودة المحتوى الخاص بملخص باستخدام الإجابة على الأسئلة (QA). تقيس الأساليب المستندة إلى ضمان الجودة مباشرة معلومات الملخص تتداخل مع مرجع، مما يجعلها مختلفة بشكل أساسي عن مقاييس تداخل النص. نوضح الفوائد التجريبية للمقاييس القائم على ضمان الجودة من خلال تحليل لميبري مقترح، Qaeval. تتفوق Qaeval على مقاييس حديثة حديثة على معظم التقييمات باستخدام مجموعات البيانات القياسية، في حين أن تكون قادرة على المنافسة على الآخرين بسبب قيود النماذج الحديثة. من خلال تحليل دقيق لكل مكون من مكونات Qaeval، نحدد اختناقات أدائها وتقدير أن أدائها المحتمل للأعلى من المحتمل يفوق جميع المقاييس التلقائية الأخرى، مما يقترب من طريقة الهرم الذهبي القياسي
يقارن تقييم نماذج الرد على الأسئلة التوضيحية حول التوقعات النموذجية. ومع ذلك، اعتبارا من اليوم، فإن هذه المقارنة تعتمد في الغالب معجمية، وبالتالي تفتقد الإجابات التي لا تحتوي على تداخل جذري ولكن لا تزال مماثلة متشابهة دلالة، وبالتالي علاج الإجابات ال صحيحة على أنها خاطئة. يعيق هذا التقليل من الأداء الحقيقي للنماذج قبول المستخدم في التطبيقات ويعقد مقارنة عادلة من النماذج المختلفة. لذلك، هناك حاجة إلى متري تقييم يعتمد على دلالات بدلا من تشابه السلسلة الخالصة. في هذه الورقة القصيرة، نقدم SAS، وهي متري مقرها في التشفير لتقدير تشابه الإجابة الدلالية، ومقارنتها بسبعة مقاييس موجودة. تحقيقا لهذه الغاية، نقوم بإنشاء مجموعة بيانات تقييم اللغة الإنجليزية ثلاثية وألمانية تحتوي على أزواج من الإجابات جنبا إلى جنب مع الحكم البشري من التشابه الدلالي، والتي نصرح لها جنبا إلى جنب مع تنفيذ Metric SAS والتجارب. نجد أن مقاييس التشابه الدلالي القائم على نماذج المحولات الأخيرة ترتبط بشكل أفضل بكثير مع الحكم البشري من مقاييس التشابه المعجمية التقليدية على مجموعات بياناتنا التي أنشأت حديثا ومجموعة بيانات واحدة من العمل ذي الصلة.
في حين أن مجموعات بيانات الإجابة على الأسئلة المتنوعة (QA) اقترحت وساهمت بشكل كبير في تطوير نماذج التعلم العميق لمهام ضمان الجودة، فإن البيانات الحالية تقصر في جوانبين. أولا، نفتقر إلى مجموعات بيانات ضمان الجودة التي تغطي الأسئلة المعقدة التي تنطوي ع لى إجابات بالإضافة إلى عمليات التفكير للحصول عليها. نتيجة لذلك، لا تزال أبحاث ضمنيا في ضمان الجودة العددية تركز على حسابات بسيطة ولا توفر التعبيرات الرياضية أو الأدلة التي تبرر الإجابات. ثانيا، ساهم مجتمع ضمان الجودة في الكثير من الجهد لتحسين إمكانية تفسير نماذج QA. ومع ذلك، فإنهم يفشلون في إظهار عملية التفكير صراحة، مثل أمر الأدلة من أجل التفكير والتفاعلات بين الأدلة المختلفة. لمعالجة العيب المذكور أعلاه، نقدم Noahqa ومجموعة بيانات QA محادثة وثنائية اللغة مع أسئلة تتطلب التفكير العددي مع التعبيرات الرياضية المركبة. مع Noahqa، نقوم بتطوير رسم بياني لتفكير قابل للتفسير بالإضافة إلى متري التقييم المناسب لقياس جودة الإجابة. نقوم بتقييم حديثة نماذج ضمان الجودة المدربة باستخدام مجموعات بيانات QA الحالية على Noahqa وإظهار أن الأفضل من بينها يمكن فقط تحقيق 55.5 عشر درجات مطابقة محددة، في حين أن الأداء البشري هو 89.7. نقدم أيضا نموذجا جديدا في ضمان الجودة لتوليد رسم بياني للمنطق حيث لا يزال متري الرسم البياني للمنطق فجوة كبيرة مقارنة بمركبات البشر، على سبيل المثال، 28 درجات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا