مجردة ملكية مرغوبة لمتري التقييم المرجعي تقيس جودة محتوى الملخص هو أنه ينبغي أن يقدر مقدار المعلومات التي لدى الملخص مشتركا مع مرجع. لا يتداخل النص التقليدي المقاييس المستندة إلى النص مثل Rouge لتحقيق ذلك لأنهم يقتصرون على مطابقة الرموز، إما متعمدة أو عبر Embeddings. في هذا العمل، نقترح متريا لتقييم جودة المحتوى الخاص بملخص باستخدام الإجابة على الأسئلة (QA). تقيس الأساليب المستندة إلى ضمان الجودة مباشرة معلومات الملخص تتداخل مع مرجع، مما يجعلها مختلفة بشكل أساسي عن مقاييس تداخل النص. نوضح الفوائد التجريبية للمقاييس القائم على ضمان الجودة من خلال تحليل لميبري مقترح، Qaeval. تتفوق Qaeval على مقاييس حديثة حديثة على معظم التقييمات باستخدام مجموعات البيانات القياسية، في حين أن تكون قادرة على المنافسة على الآخرين بسبب قيود النماذج الحديثة. من خلال تحليل دقيق لكل مكون من مكونات Qaeval، نحدد اختناقات أدائها وتقدير أن أدائها المحتمل للأعلى من المحتمل يفوق جميع المقاييس التلقائية الأخرى، مما يقترب من طريقة الهرم الذهبي القياسي
Abstract A desirable property of a reference-based evaluation metric that measures the content quality of a summary is that it should estimate how much information that summary has in common with a reference. Traditional text overlap based metrics such as ROUGE fail to achieve this because they are limited to matching tokens, either lexically or via embeddings. In this work, we propose a metric to evaluate the content quality of a summary using question-answering (QA). QA-based methods directly measure a summary's information overlap with a reference, making them fundamentally different than text overlap metrics. We demonstrate the experimental benefits of QA-based metrics through an analysis of our proposed metric, QAEval. QAEval outperforms current state-of-the-art metrics on most evaluations using benchmark datasets, while being competitive on others due to limitations of state-of-the-art models. Through a careful analysis of each component of QAEval, we identify its performance bottlenecks and estimate that its potential upper-bound performance surpasses all other automatic metrics, approaching that of the gold-standard Pyramid Method.1
المراجع المستخدمة
https://aclanthology.org/
يقارن تقييم نماذج الرد على الأسئلة التوضيحية حول التوقعات النموذجية. ومع ذلك، اعتبارا من اليوم، فإن هذه المقارنة تعتمد في الغالب معجمية، وبالتالي تفتقد الإجابات التي لا تحتوي على تداخل جذري ولكن لا تزال مماثلة متشابهة دلالة، وبالتالي علاج الإجابات ال
تصف هذه الدراسة تطوير سؤال مجتمعي برتغالي يرد على معيار في مجال ميليتوس السكري باستخدام نهج إيصال الأسئلة المعترف به (RQE). بالنظر إلى سؤال الفرضية، يهدف RQE إلى استرداد أسئلة متشابهة دلالة الشكل، أجاب بالفعل على أرشفة. إننا نبني كوربا رئيسيا باللغة
ركزت أبحاث NLP باللغة العبرية إلى حد كبير على التورفولوجيا وبناء جملة، حيث تتوفر مجموعات البيانات المشروحة الغنية بروح التبعيات العالمية.ومع ذلك، تعد مجموعات البيانات الدلالية في العرض القصير، مما يعوق السلف الحاسم في تطوير تكنولوجيا NLP باللغة العبر
يوفر نظام الإجابة على الأسئلة التي توفر إجابة بالإضافة إلى تقديم إجابة تفسير للمنطق الذي يؤدي إلى تلك الإجابة بمزايا محتملة من حيث الناضجة والتمويل والثقة. تحقيقا لهذه الغاية، نقترح QED، إطارا غير قابل للتوسيع على الإبلاغ عن التفسيرات على الإبلاغ عن
أظهرت الدراسات الحديثة أن مطالبات تحسين أداء نماذج اللغة الكبيرة المدربة مسبقا مسبقا لتصنيف نص قليل بالرصاص. ومع ذلك، فمن غير الواضح كيف يمكن نقل المعرفة المطالبة عبر مهام NLP مماثلة لغرض التعزيز المتبادل. بناء على embeddings الفوري المستمر، نقترح Tr