STARM: مجموعة بيانات لاستخراج الموجز الذاتي من وثائق ويكيبيديا


الملخص بالعربية

تتطلب العديد من التطبيقات توليد ملخصات مصممة خصيصا لاحتياجات معلومات المستخدم، أي نواياها. الأساليب التي تعبر عن النية عبر استعلامات المستخدم الصريحة تسقط قصيرة عند التفسير الاستعلام هو شخصي. توجد عدة مجموعات من مجموعات البيانات للتخصيص مع النوايا الموضوعية حيث، لكل وثيقة ونوايا (E.G.، Weather ")، تكفي موجز واحد لجميع المستخدمين. لا توجد مجموعات البيانات، ومع ذلك، بالنسبة للمؤلفة الذاتية (E.G.، الأماكن المثيرة للاهتمام ") حيث سيقدم المستخدمون المختلفون ملخصات مختلفة. نحن نقدم العانة، أول مجموعة البيانات لتقييم أنظمة استخراج الملخص الذاتي. تحتوي STALUME على ثلاثة أفراد (وثيقة، نية، ملخص) ثلاثة توائم أكثر من 48 صفحة ويكيبيديا، مع عشرة نوبة ذاتي اختلاف ذاتي، والتي توفرها 103 فردا على الترك الميكانيكي. نوضح إحصائيا أن النوايا في SARMENT تختلف بشكل منهجي في الذاتية. للإشارة إلى فائدة SUTTUME، نستكشف مجموعة من خوارزميات أساسية لتلخيص استخراجي ذاتي وإظهار أن (I) كما هو متوقع، فإن النهج القائمة على سبيل المثال، من الأفضل أن تلتقط النوايا ذاتية من تلك القائمة على الاستعلام، و (2) هناك نطاق واسع لتحسينه خوارزميات الأساس، وبالتالي تحفز المزيد من الأبحاث حول هذه المشكلة الصعبة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث