نقوم بإصدار Gesera، وهي نسخة محسنة مفتوحة المصدر من SERA لتقييم الملخصات الاستخراجية والتغييرات التلقائية من المجال العام. تعتمد SERA على محرك بحث يقارن الملخصات المرشحة والمرجعية (تسمى الاستعلامات) مقابل قاعدة مستندات استرجاع المعلومات (تسمى المؤشر). تم تصميم Sera في الأصل للنطاق الطبي الطبيعي فقط، حيث أظهرت ارتباطا أفضل مع الأساليب اليدوية من طريقة Rouge المستندة إلى المعجمات المستخدمة على نطاق واسع. في هذه الورقة، نأخذ سيرا من المجال الطبي الطبيعي إلى عام واحد من خلال تكييف أسلوبها القائم على المحتوى لتقييم الملخصات بنجاح من المجال العام. أولا، نحسن استراتيجية إعادة صياغة الاستعلام مع تحليل علامات نقاط البيع لعوريا المجال العام. ثانيا، نستبدل المؤشر الطبي الحيوي المستخدم في سيرا بمجموعات مقالة مقالة من مادتين ويكيبيديا. نحن نقوم بإجراء تجارب مع مجموعات بيانات TAC2008 و TAC2009 و CNNDM. تظهر النتائج أنه في معظم الحالات، تحقق Gesera ارتباطا أعلى مع أساليب التقييم اليدوي من SERA، بينما يقلل من فجوا لها مع Rouge for General-Domain Definuation. حتى gesera حتى يتجاوز الحمر في حالتين من TAC2009. أخيرا، نقوم بإجراء تجارب مكثفة وتوفير دراسة شاملة لتأثير الحنجرة البشرية وحجم المؤشر على التقييم الموجز مع SERA و GESERA.
We present GeSERA, an open-source improved version of SERA for evaluating automatic extractive and abstractive summaries from the general domain. SERA is based on a search engine that compares candidate and reference summaries (called queries) against an information retrieval document base (called index). SERA was originally designed for the biomedical domain only, where it showed a better correlation with manual methods than the widely used lexical-based ROUGE method. In this paper, we take out SERA from the biomedical domain to the general one by adapting its content-based method to successfully evaluate summaries from the general domain. First, we improve the query reformulation strategy with POS Tags analysis of general-domain corpora. Second, we replace the biomedical index used in SERA with two article collections from AQUAINT-2 and Wikipedia. We conduct experiments with TAC2008, TAC2009, and CNNDM datasets. Results show that, in most cases, GeSERA achieves higher correlations with manual evaluation methods than SERA, while it reduces its gap with ROUGE for general-domain summary evaluation. GeSERA even surpasses ROUGE in two cases of TAC2009. Finally, we conduct extensive experiments and provide a comprehensive study of the impact of human annotators and the index size on summary evaluation with SERA and GeSERA.
المراجع المستخدمة
https://aclanthology.org/
اكتشاف الكلام الكراهية هو مجال أبحاث بنشاط مع مجموعة متنوعة من الأساليب المقترحة مؤخرا التي سمحت بدفع النتائج الحديثة.واحدة من تحديات هذه الأساليب الآلية - وهي نماذج التعلم العميق الحديثة - خطر الإيجابيات الخاطئة (أي، اتهامات كاذبة)، والتي قد تؤدي إل
نقترح إجراء تقييم جودة خاص بالرجوع إلى مرجعية، مع التركيز على الإخلاص.يعتمد الإجراء على إيجاد وعد جميع التناقضات المحتملة المحتملة في الملخص فيما يتعلق بالوثيقة المصدر.يرتبط مؤشر الإستيم المقترح ومقدر عدم تناسق الملخص من خلال المدينات غير المعطاة بدر
نقدم مجموعة بيانات جديدة لإعادة كتابة الأسئلة في سياق المحادثة (QRECC)، والتي تحتوي على محادثات 14 ألف مع أزواج من الإجابات السؤال 80k.تتمثل المهمة في QRECC في العثور على إجابات على أسئلة المحادثة داخل مجموعة من صفحات الويب 10 أمتار (تقسيم إلى 54 متر
نقدم سبارتا، وهي طريقة استرجاع عصبي رواية تعرض وعد كبير في الأداء والتعميم والتفسيرية للحصول على سؤال السؤال المفتوح. على عكس العديد من أساليب التصنيف العصبي التي تستخدم ناقلات كثيفة أقرب بحث جار، يتعلم سبارتا تمثيل متقطع يمكن تنفيذها بكفاءة كمؤشر مق
تركز العديد من مهام NLG مثل التلخيص أو استجابة الحوار أو سؤال المجال المفتوح، والتركيز بشكل أساسي في نص مصدر من أجل توليد استجابة مستهدفة.ومع ذلك، يقع هذا النهج القياسي، عندما يكون نية المستخدم أو سياق العمل غير قابل للاسترداد بسهولة بناء على النص ال