ترغب بنشر مسار تعليمي؟ اضغط هنا

Gesera: تقييم ملخص المجال العام عن طريق تحليل الصلة

GeSERA: General-domain Summary Evaluation by Relevance Analysis

463   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقوم بإصدار Gesera، وهي نسخة محسنة مفتوحة المصدر من SERA لتقييم الملخصات الاستخراجية والتغييرات التلقائية من المجال العام. تعتمد SERA على محرك بحث يقارن الملخصات المرشحة والمرجعية (تسمى الاستعلامات) مقابل قاعدة مستندات استرجاع المعلومات (تسمى المؤشر). تم تصميم Sera في الأصل للنطاق الطبي الطبيعي فقط، حيث أظهرت ارتباطا أفضل مع الأساليب اليدوية من طريقة Rouge المستندة إلى المعجمات المستخدمة على نطاق واسع. في هذه الورقة، نأخذ سيرا من المجال الطبي الطبيعي إلى عام واحد من خلال تكييف أسلوبها القائم على المحتوى لتقييم الملخصات بنجاح من المجال العام. أولا، نحسن استراتيجية إعادة صياغة الاستعلام مع تحليل علامات نقاط البيع لعوريا المجال العام. ثانيا، نستبدل المؤشر الطبي الحيوي المستخدم في سيرا بمجموعات مقالة مقالة من مادتين ويكيبيديا. نحن نقوم بإجراء تجارب مع مجموعات بيانات TAC2008 و TAC2009 و CNNDM. تظهر النتائج أنه في معظم الحالات، تحقق Gesera ارتباطا أعلى مع أساليب التقييم اليدوي من SERA، بينما يقلل من فجوا لها مع Rouge for General-Domain Definuation. حتى gesera حتى يتجاوز الحمر في حالتين من TAC2009. أخيرا، نقوم بإجراء تجارب مكثفة وتوفير دراسة شاملة لتأثير الحنجرة البشرية وحجم المؤشر على التقييم الموجز مع SERA و GESERA.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

اكتشاف الكلام الكراهية هو مجال أبحاث بنشاط مع مجموعة متنوعة من الأساليب المقترحة مؤخرا التي سمحت بدفع النتائج الحديثة.واحدة من تحديات هذه الأساليب الآلية - وهي نماذج التعلم العميق الحديثة - خطر الإيجابيات الخاطئة (أي، اتهامات كاذبة)، والتي قد تؤدي إل ى حجب أو إزالة محتوى وسائل التواصل الاجتماعي غير الضارة في التطبيقات مع تدخل المشرف القليلوبعدنحن نقيم نماذج التعلم العميق في حد سواء تحت ظروف الكشف عن الكلام في المجال والمجال عبر المجال، وإدخال نهج SVM يسمح بتحسين نتائج أحدث من الفن عند دمجها مع نماذج التعلم العميق من خلال غالبية بسيطةفرقة التصويت.يرجع التحسن أساسا إلى انخفاض معدل إيجابي كاذب.
نقترح إجراء تقييم جودة خاص بالرجوع إلى مرجعية، مع التركيز على الإخلاص.يعتمد الإجراء على إيجاد وعد جميع التناقضات المحتملة المحتملة في الملخص فيما يتعلق بالوثيقة المصدر.يرتبط مؤشر الإستيم المقترح ومقدر عدم تناسق الملخص من خلال المدينات غير المعطاة بدر جات الخبراء في مجموعة بيانات STOMEVAL للمستوى الملخص أقوى من تدابير التقييم المشتركة الأخرى ليس فقط في الاتساق ولكن أيضا في الطلاقة.نقدم أيضا طريقة لتوليد أخطاء واقعية خفية في ملخصات بشرية.نظهر أن ESTIME أكثر حساسية للأخطاء الدقيقة من تدابير التقييم المشتركة الأخرى.
نقدم مجموعة بيانات جديدة لإعادة كتابة الأسئلة في سياق المحادثة (QRECC)، والتي تحتوي على محادثات 14 ألف مع أزواج من الإجابات السؤال 80k.تتمثل المهمة في QRECC في العثور على إجابات على أسئلة المحادثة داخل مجموعة من صفحات الويب 10 أمتار (تقسيم إلى 54 متر ا مربعا).قد يتم توزيع إجابات على الأسئلة الموجودة في نفس المحادثة عبر العديد من صفحات الويب.توفر QRECC التعليقات التوضيحية التي تسمح لنا بتدريب وتقييم المهارات الفرعية الفردية من إعادة كتابة السؤال، واسترجاع المرور وفهم القراءة المطلوبة لمهمة الإجابة على مسألة المحادثة نهاية إلى نهاية.نبلغ عن فعالية نهج خط الأساس القوي الذي يجمع بين النموذج الحديثة لإعادة كتابة الأسئلة والنماذج التنافسية لقضاء ضمان الجودة المفتوحة.حددت نتائجنا أول خط أساسي ل DataSet QRECC مع F1 من 19.10، مقارنة بمضابط العلوي البشري 75.45، مما يدل على صعوبة الإعداد وغرفة كبيرة للتحسين.
نقدم سبارتا، وهي طريقة استرجاع عصبي رواية تعرض وعد كبير في الأداء والتعميم والتفسيرية للحصول على سؤال السؤال المفتوح. على عكس العديد من أساليب التصنيف العصبي التي تستخدم ناقلات كثيفة أقرب بحث جار، يتعلم سبارتا تمثيل متقطع يمكن تنفيذها بكفاءة كمؤشر مق لوب. تمكن التمثيل الناتج استرجاع العصبي القابل للتطوير الذي لا يتطلب البحث التقريبي باهظ التقريب ويؤدي إلى أداء أفضل من نظيره الكثيف. لقد صادقنا مناهجنا على مهام الإجابة على سؤال (OpenQA) 4 و 11 مهام الإجابة على السؤال (REQA) 11. يحقق Sparta أحدث نتائج جديدة في مجموعة متنوعة من الأسئلة المفتوحة في المجال الرد على المهام في كل من مجموعات البيانات الإنجليزية والصينية، بما في ذلك الفريق المفتوح، CMRC، إلخ. تؤكد التحليل أيضا أن الطريقة المقترحة تخلق تمثيل قابل للتفسير الإنسان ويسمح السيطرة على المفاضلة بين الأداء والكفاءة.
تركز العديد من مهام NLG مثل التلخيص أو استجابة الحوار أو سؤال المجال المفتوح، والتركيز بشكل أساسي في نص مصدر من أجل توليد استجابة مستهدفة.ومع ذلك، يقع هذا النهج القياسي، عندما يكون نية المستخدم أو سياق العمل غير قابل للاسترداد بسهولة بناء على النص ال مصدر هذا فقط - سيناريو الذي نقوله هو أكثر من القاعدة من الاستثناء.في هذا العمل، نجرب أن أنظمة NLG بشكل عام يجب أن تضع مستوى أعلى بكثير من التركيز على استخدام سياق إضافي، وتشير إلى أن الأهمية (كما هو مستخدم باسترجاع المعلومات) تعتبر كأداة حاسمة لتصميم النص الموجه للمستخدمالمهام - المهام.ونحن نناقش كذلك الأضرار والمخاطر المحتملة حول هذه التخصيص، وتجادل أن التصميم الحساس في القيمة يمثل طريقا حاسما للأمام من خلال هذه التحديات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا