ترغب بنشر مسار تعليمي؟ اضغط هنا

التقييم القائم على التشابه الدلالي لتلخيص الأخبار الجماعية

Semantic Similarity Based Evaluation for Abstractive News Summarization

281   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

Rouge هو متري تقييم واسع الاستخدام في تلخيص النص.ومع ذلك، فإنه غير مناسب لتقييم أنظمة تلخيص الجماع حيث تعتمد على التداخل المعجمي بين معيار الذهب والملخصات التي تم إنشاؤها.يصبح هذا القيد أكثر وضوحا للغات الشاقة مع المفردات الكبيرة جدا ونسب عالية النوع / الرمز المميز.في هذه الورقة، نقدم نماذج التشابه الدلالي لأتراك وتطبيقها كقائد تقييم لمهمة تلخيص مبادرة.لتحقيق ذلك، قامنا بترجمة مجموعة بيانات STSB الإنجليزية إلى تركية وعرضت بيانات التشابه الدلالي الأول للتركية أيضا.أظهرنا أن أفضل نماذج التشابه لدينا لها محاذاة أفضل مع الأحكام البشرية المتوسطة مقارنة بالحصان في كل من علاقات بيرسون ورأس.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم اعتماد الأساليب القائمة على الرسم البياني مؤخرا لتلخيص نص مبادرة.ومع ذلك، فإن الأساليب القائمة على الرسم البياني الموجودة فقط تنظر فقط في علاقات الكلمات أو معلومات الهيكل، والتي تهمل الارتباط بينهما.في وقت واحد التقاط علاقات الكلمة ومعلومات الهيكل من الجمل، نقترح شبكة الرسم البياني المزدوج الرواية لتلخيص جملة الاختيارات.على وجه التحديد، نقوم أولا بإنشاء رسم بياني للسيناريو الدلالي والكلمة الدلالية الرسم البياني على أساس FRAMENET، وبالتالي تعلم تمثيلاتها وطريقة الانصهار الرسم البياني للتصميم لتعزيز ارتباطها والحصول على تمثيل دلالي أفضل لجيل الملخص.تظهر النتائج التجريبية النموذج لدينا تفوق الأساليب الموجودة في مجموعة بيانات قياسية شعبية، I.E.، GIGAWORD و DUC 2004.
تقدير أنظمة التشابه الدلالي النصي (STS) درجة تشابه معنى بين جملتين.تقدر أنظمة STS عبر اللغات درجة تشابه معنى بين جملتين، كل منها بلغة مختلفة.عادة ما تستخدم الخوارزميات الحديثة عادة نهجا بالغضب بشدة، يصعب استخدامه لغات ضعف الموارد.ومع ذلك، يحتاج أي نه ج للحصول على بيانات التقييم لتأكيد النتائج.من أجل تبسيط عملية التقييم لغات ضعف الموارد (من حيث مجموعات بيانات تقييم STS)، نقدم مجموعات بيانات جديدة ل STS عبر اللغات والأحمر غير المباشر لغات دون بيانات التقييم هذه.نقدم أيضا نتائج العديد من الطرق الحديثة على هذه البيانات التي يمكن استخدامها كأساس للحصول على مزيد من البحث.نعتقد أن هذه المقالة لن تمد فقط أبحاث STS الحالية فقط إلى لغات أخرى، ولكنها ستشجع أيضا المنافسة على هذه بيانات التقييم الجديدة.
لا يزال تقييم التلخيص مشكلة بحث مفتوحة: من المعروف أن المقاييس الحالية مثل الحمر محدودة وربطها بشكل سيء بأحكام بشرية.لتخفيف هذه المسألة، اقترحت العمل الحديث مقاييس التقييم التي تعتمد على الأسئلة في الإجابة على النماذج لتقييم ما إذا كان الملخص يحتوي ع لى جميع المعلومات ذات الصلة في وثيقتها المصدر.على الرغم من الواعدة، إلا أن النهج المقترحة فشلت حتى الآن في الارتباط بشكل أفضل من الحمر بأحكام بشرية.في هذه الورقة، نقدم النهج السابقة واقتراح إطار موحد، يدعى Questeval.على عكس مقاييس ثابتة مثل Rouge أو Bertscore، لا يتطلب Questeval أي مرجع حقيقي في الحقيقة.ومع ذلك، فإن Questeval يحسن بشكل كبير من الارتباط بالأحكام البشرية على أربع أبعاد تقييم (الاتساق والتماسك والطلاقة والأهمية)، كما هو مبين في تجارب واسعة النطاق.
اكتسبت أنظمة تلخيص الجماع العصبي تقدما كبيرا في السنوات الأخيرة.ومع ذلك، غالبا ما تنتج تلخيص التلوث في كثير من الأحيان بيانات غير متناسقة أو حقائق كاذبة.كيفية توليد الملخصات التجريدية بشكل كبير تلقائيافي هذه الورقة، اقترحنا نهجا فعالا معزز بيانات تكب ير البيانات الفعالة لتشكيل مجموعة بيانات الاتساق الواقعية.بناء على مجموعة البيانات الاصطناعية، ندرب نموذجا للتقييم التي لا يمكن أن تجعل تمييز التناسق الواقعي الدقيق والقوي فحسب، بل قادرا أيضا على جعل الأخطاء الواقعية القابلة للتفسير تتبعها توزيع التدرج السابق على توزيع الرمز المميز.توضح إجراء التجارب والتحليل في ملخصات التلخيص المشروح العام ومجموعات بيانات الاتساق واقعية نهجنا فعال ومعقول.
على الرغم من أن نماذج التلخيص المحظورة حققت نتائج مثيرة للإعجاب في مهام تلخيص المستندات، فإن أدائها على نمذجة الحوار أقل مرضية بأقل قدر ممكن بسبب الأساليب النفطية والمتصلة لترميز الحوار.لمعالجة هذا السؤال، نقترح نموذجا نزايدا للنماذج القائمة على المح ولات في النهاية لتلخيص الحوار الجماعي الذي يرفع الهياكل الدلالية الدلالية الشديدة الحبوب إلى الحوار النموذجي وتوليد ملخصات أفضل.تجارب في برنامج Samsum DataSet الذي يجد يتفوق على مناهج تلخيص الحوار المختلفة وتحقق نتائج Rouge الحديثة (SOTA) الجديدة.أخيرا، نطبق أن نتمكن من العثور على سيناريو أكثر تعقيدا، مما يدل على تقلص نموذجنا.ونحن نطلق أيضا شفرة المصدر لدينا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا