ترغب بنشر مسار تعليمي؟ اضغط هنا

تبسيط النص هو تقنية قيمة.ومع ذلك، يقتصر البحث الحالي على تبسيط الجملة.في هذه الورقة، نحدد والتحقيق في مهمة جديدة من تبسيط نص المستندات على مستوى المستند، والتي تهدف إلى تبسيط وثيقة تتكون من جمل متعددة.بناء على مقالب ويكيبيديا، نقوم أولا ببناء مجموعة بيانات واسعة النطاق تسمى D-Wikipedia وأداء التحليل والتقييم البشري عليه لإظهار أن مجموعة البيانات موثوقة.بعد ذلك، نقترح مقياس تقييم تلقائي جديد يسمى D-SARI هو أكثر ملاءمة لمهمة تبسيط مستوى المستند.أخيرا، نقوم باختيار العديد من النماذج التمثيلية كطرازات أساسية لهذه المهمة وأداء التقييم التلقائي والتقييم البشري.نحن نحلل النتائج وأشرح أوجه القصور في النماذج الأساسية.
تشبه مهمة تبسيط نص الوثيقة على مستوى المستندات إلى صعوبة تقليل التعقيد الإضافي.نقدم مجموعة بيانات مجمعة حديثا من النصوص الألمانية، التي تم جمعها من مجلة Swiss News 20 Minuten (20 دقيقة) والتي تتكون من مقالات كاملة مقررة مع ملخصات مبسطة.علاوة على ذلك، نقدم تجارب على تبسيط النص التلقائي مع MBART MBART متعددة اللغات المسبدة مسبقا ونسخة معدلة منها أكثر صديقة للذاكرة، باستخدام كل من مجموعة البيانات الجديدة والتبسيط الموجودة Corpora.تتيح لنا تعديلات MBArt التدريب بتكلفة أقل في الذاكرة دون فقدان الكثير من الخسارة في الأداء، في الواقع، فإن MBART أصغر يحسن حتى النموذج القياسي في إعداد مع مستويات تبسيط متعددة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا