ترغب بنشر مسار تعليمي؟ اضغط هنا

نحو الإجابة على السؤال كمقياس تلقائي لتقييم جودة محتوى الملخص

Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary

277   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مجردة ملكية مرغوبة لمتري التقييم المرجعي تقيس جودة محتوى الملخص هو أنه ينبغي أن يقدر مقدار المعلومات التي لدى الملخص مشتركا مع مرجع. لا يتداخل النص التقليدي المقاييس المستندة إلى النص مثل Rouge لتحقيق ذلك لأنهم يقتصرون على مطابقة الرموز، إما متعمدة أو عبر Embeddings. في هذا العمل، نقترح متريا لتقييم جودة المحتوى الخاص بملخص باستخدام الإجابة على الأسئلة (QA). تقيس الأساليب المستندة إلى ضمان الجودة مباشرة معلومات الملخص تتداخل مع مرجع، مما يجعلها مختلفة بشكل أساسي عن مقاييس تداخل النص. نوضح الفوائد التجريبية للمقاييس القائم على ضمان الجودة من خلال تحليل لميبري مقترح، Qaeval. تتفوق Qaeval على مقاييس حديثة حديثة على معظم التقييمات باستخدام مجموعات البيانات القياسية، في حين أن تكون قادرة على المنافسة على الآخرين بسبب قيود النماذج الحديثة. من خلال تحليل دقيق لكل مكون من مكونات Qaeval، نحدد اختناقات أدائها وتقدير أن أدائها المحتمل للأعلى من المحتمل يفوق جميع المقاييس التلقائية الأخرى، مما يقترب من طريقة الهرم الذهبي القياسي



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يقارن تقييم نماذج الرد على الأسئلة التوضيحية حول التوقعات النموذجية. ومع ذلك، اعتبارا من اليوم، فإن هذه المقارنة تعتمد في الغالب معجمية، وبالتالي تفتقد الإجابات التي لا تحتوي على تداخل جذري ولكن لا تزال مماثلة متشابهة دلالة، وبالتالي علاج الإجابات ال صحيحة على أنها خاطئة. يعيق هذا التقليل من الأداء الحقيقي للنماذج قبول المستخدم في التطبيقات ويعقد مقارنة عادلة من النماذج المختلفة. لذلك، هناك حاجة إلى متري تقييم يعتمد على دلالات بدلا من تشابه السلسلة الخالصة. في هذه الورقة القصيرة، نقدم SAS، وهي متري مقرها في التشفير لتقدير تشابه الإجابة الدلالية، ومقارنتها بسبعة مقاييس موجودة. تحقيقا لهذه الغاية، نقوم بإنشاء مجموعة بيانات تقييم اللغة الإنجليزية ثلاثية وألمانية تحتوي على أزواج من الإجابات جنبا إلى جنب مع الحكم البشري من التشابه الدلالي، والتي نصرح لها جنبا إلى جنب مع تنفيذ Metric SAS والتجارب. نجد أن مقاييس التشابه الدلالي القائم على نماذج المحولات الأخيرة ترتبط بشكل أفضل بكثير مع الحكم البشري من مقاييس التشابه المعجمية التقليدية على مجموعات بياناتنا التي أنشأت حديثا ومجموعة بيانات واحدة من العمل ذي الصلة.
تصف هذه الدراسة تطوير سؤال مجتمعي برتغالي يرد على معيار في مجال ميليتوس السكري باستخدام نهج إيصال الأسئلة المعترف به (RQE). بالنظر إلى سؤال الفرضية، يهدف RQE إلى استرداد أسئلة متشابهة دلالة الشكل، أجاب بالفعل على أرشفة. إننا نبني كوربا رئيسيا باللغة البرتغالية مع 785 زوجا بين أسئلة الفرضية وأرشفة الأسئلة الإجابة تميزت بأحكام الأهمية من قبل خبراء طبيين. استنادا إلى Corpus القياسي، فإننا نستفيد وتقييم العديد من نهج RQE تتراوح من أساليب استرجاع المعلومات التقليدية إلى نماذج اللغة الكبيرة المدربة مسبقا وتقنيات الفرقة باستخدام مناهج التعلم إلى رتبة. تظهر نتائجنا التجريبية أن الأسلوب الإشراف على المحولات المدربين مدربا بلغات متعددة ومهام متعددة (موسى) يتفوق على البدائل. تظهر نتائجنا أيضا أن فروع الأساليب (التراص) بالإضافة إلى طريقة استرجاع المعلومات (الضوء) التقليدية (BM25) يمكن أن تنتج نتائج تنافسية. أخيرا، من بين الاستراتيجيات التي تم اختبارها، فإن أولئك الذين يستغلون سوى السؤال (وليس الإجابة)، وتقديم أفضل مفاضلة كفاءة الفعالية. الرمز متاح علنا.
ركزت أبحاث NLP باللغة العبرية إلى حد كبير على التورفولوجيا وبناء جملة، حيث تتوفر مجموعات البيانات المشروحة الغنية بروح التبعيات العالمية.ومع ذلك، تعد مجموعات البيانات الدلالية في العرض القصير، مما يعوق السلف الحاسم في تطوير تكنولوجيا NLP باللغة العبر ية.في هذا العمل، نقدم البسجة، والسؤال الأول يجيب على DataSet في العبرية الحديثة.تتبع DataSet التنسيق والتعبئة المنهجية من المنهجية من التدقيق، وتحتوي على ما يقرب من 3000 من الأمثلة المشروحة، مماثلة لمجموعات بيانات الإجابة على الأسئلة الأخرى بلغات الموارد المنخفضة.نحن نقدم نتائج خط الأساس الأولى باستخدام نماذج مصممة على طراز برت صدر مؤخرا للعبرية، مما يدل على أن هناك مجالا مهما للتحسين في هذه المهمة.
يوفر نظام الإجابة على الأسئلة التي توفر إجابة بالإضافة إلى تقديم إجابة تفسير للمنطق الذي يؤدي إلى تلك الإجابة بمزايا محتملة من حيث الناضجة والتمويل والثقة. تحقيقا لهذه الغاية، نقترح QED، إطارا غير قابل للتوسيع على الإبلاغ عن التفسيرات على الإبلاغ عن التفسيرات. يحدد Explanation QED العلاقة بين سؤال وجواب وفقا لمفاهيم الدلالية الرسمية مثل المساواة المرجعية والعصا والتنفيذية. وصفنا علنا ​​أن نطلق علنا ​​عن مجموعة بيانات مشروح من التفسيرات QED التي بنيت مجموعة فرعية من مجموعة بيانات أسئلة Google الطبيعية، وتقديم تقرير نماذج أساسية في مهمتين --- جيل التفسير بعد الوظائف بالنظر إلى إجابة ورد على سؤال مشترك وإجابة تفسير وبعد في الإعداد المشترك، تشير النتيجة الواعدة إلى أن التدريب على كمية صغيرة نسبيا من بيانات QED يمكن أن يحسن الإجابة على السؤال. بالإضافة إلى وصف الدوافع الرسمية والنورات الرسمية لنهج QED، فإننا نصف دراسة مستخدمين كبيرة تبين أن وجود تفسيرات QED يحسن بشكل كبير من قدرة الفئات غير المدربة على الأخطاء التي قدمتها خط الأساس القوي العصبي القوي.
أظهرت الدراسات الحديثة أن مطالبات تحسين أداء نماذج اللغة الكبيرة المدربة مسبقا مسبقا لتصنيف نص قليل بالرصاص. ومع ذلك، فمن غير الواضح كيف يمكن نقل المعرفة المطالبة عبر مهام NLP مماثلة لغرض التعزيز المتبادل. بناء على embeddings الفوري المستمر، نقترح Tr ansprompt، إطار مطالب قابل للتحويل لتعلم قليل من الطلقات عبر مهام مماثلة. في Transprompt، نحن نوظف إجراءات اقتناء المعرفة متعددة المهام لتدريب المتعرية التي تلتقط المعرفة القابلة للتحويل المهمة. تم تصميم متزحاب تقنيات التغذيتين لجعلها أكثر ملاءمة وغير مرغوبة وغير متحيزة تجاه أي مهام. بعد ذلك، يمكن تكييف المتعلم التعريف مع المهام المستهدفة بدقة عالية. تبين تجارب واسعة أن Transprompt تفوقت على المهمة المفردة والاستصراد القوي عبر المهام عبر مهام NLP متعددة ومجموعات البيانات. نؤدي كذلك إلى أن المتعلم التلوي يمكن أن يحسن بشكل فعال الأداء على المهام غير المرئية مسبقا؛ وتتفوق TransPrompt أيضا على خطوط خطوط خطوط خطوط وطنية قوية عند التعلم مع مجموعات تدريب كاملة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا