ترغب بنشر مسار تعليمي؟ اضغط هنا

تبسيط النص على مستوى المستند: مجموعة البيانات والمعايير والخط الأساسي

Document-Level Text Simplification: Dataset, Criteria and Baseline

625   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تبسيط النص هو تقنية قيمة.ومع ذلك، يقتصر البحث الحالي على تبسيط الجملة.في هذه الورقة، نحدد والتحقيق في مهمة جديدة من تبسيط نص المستندات على مستوى المستند، والتي تهدف إلى تبسيط وثيقة تتكون من جمل متعددة.بناء على مقالب ويكيبيديا، نقوم أولا ببناء مجموعة بيانات واسعة النطاق تسمى D-Wikipedia وأداء التحليل والتقييم البشري عليه لإظهار أن مجموعة البيانات موثوقة.بعد ذلك، نقترح مقياس تقييم تلقائي جديد يسمى D-SARI هو أكثر ملاءمة لمهمة تبسيط مستوى المستند.أخيرا، نقوم باختيار العديد من النماذج التمثيلية كطرازات أساسية لهذه المهمة وأداء التقييم التلقائي والتقييم البشري.نحن نحلل النتائج وأشرح أوجه القصور في النماذج الأساسية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تشبه مهمة تبسيط نص الوثيقة على مستوى المستندات إلى صعوبة تقليل التعقيد الإضافي.نقدم مجموعة بيانات مجمعة حديثا من النصوص الألمانية، التي تم جمعها من مجلة Swiss News 20 Minuten (20 دقيقة) والتي تتكون من مقالات كاملة مقررة مع ملخصات مبسطة.علاوة على ذلك، نقدم تجارب على تبسيط النص التلقائي مع MBART MBART متعددة اللغات المسبدة مسبقا ونسخة معدلة منها أكثر صديقة للذاكرة، باستخدام كل من مجموعة البيانات الجديدة والتبسيط الموجودة Corpora.تتيح لنا تعديلات MBArt التدريب بتكلفة أقل في الذاكرة دون فقدان الكثير من الخسارة في الأداء، في الواقع، فإن MBART أصغر يحسن حتى النموذج القياسي في إعداد مع مستويات تبسيط متعددة.
مراجعة العقود هي إجراء يستغرق وقتا طويلا يتحمل نفقات كبيرة للشركات وعدم المساواة الاجتماعية لأولئك الذين لا يستطيعون تحمل تكاليفها. في هذا العمل، نقترح استنتاج اللغة الطبيعي على مستوى المستند (NLI) للعقود "، وهو جديد، تطبيق عالمي حقيقي من NLI يتناول مثل هذه المشاكل. في هذه المهمة، يتم إعطاء نظام مجموعة من الفرضيات (مثل بعض الالتزامات بالاتفاق قد ينجو من الإنهاء. ") وعقد، ويطلب منها تصنيف ما إذا كانت كل فرضية تنطوي عليها" "، تناقض مع" لم يذكره "(محايد) العقد وكذلك تحديد الأدلة" للقرار على أنه يمتد في العقد. شرحنا وإطلاق سراح أكبر جوربوس حتى الآن يتكون من 607 عقدا مشروحا. نوضح بعد ذلك أن النماذج الحالية تفشل بشكل سيء في مهمتنا وإدخال خط أساس قوي، والتي (أ) تحديد دليل الأدلة كتصنيف متعدد العلامات على المدافع بدلا من محاولة التنبؤ بطارية الرموز البديلة والنهاية، و (ب) توظف تجزئة السياق أكثر تطورا للتعامل مع وثائق طويلة. نوضح أيضا أن الخصائص اللغوية للعقود، مثل النفي من خلال الاستثناءات، تساهم في صعوبة هذه المهمة وأن هناك مجالا كبيرا للتحسين.
نحن نعتبر مشكلة التعلم بتبسيط النصوص الطبية. هذا مهم لأن معظم المعلومات الأكثر موثوقية وحديثة في الطب الحيوي كثيفة مع Jargon وبالتالي لا يمكن الوصول إليها عمليا للجمهور العادي. علاوة على ذلك، لا يتجاوز التبسيط اليدوي للجسم بسرعة متزايدة من الأدب الطب ي الطبيعي، يحفز الحاجة إلى النهج الآلي. لسوء الحظ، لا توجد موارد واسعة النطاق المتاحة لهذه المهمة. في هذا العمل، نقدم جثة جديدة من النصوص الموازية باللغة الإنجليزية تضم ملخصات تقنية ووضع جميع الأدلة المنشورة المتعلقة بالموضوعات السريرية المختلفة. بعد ذلك، نقترح مقياسا جديدا يستند إلى درجات احتمالية من نموذج لغة ملثم مسبقا على النصوص العلمية. نظهر أن هذا التدبير الآلي يتحمل أفضل بين الملخصات التقنية والوضعية من الاستدلال القائمة. نقدم وتقييم نماذج محول ترميز تشفير الأساس لتبسيطها واقتراح تكبير رواية لهذه التي تعاقب فيها بشكل صريح فك الترميز لإنتاج مصطلحات JARGON؛ نجد أن هذا يجرض التحسينات على أساس الأساس من حيث قابلية القراءة.
إن استخراج العلاقات على مستوى المستند هو مهمة صعبة، تتطلب التفكير في جمل متعددة للتنبؤ بمجموعة من العلاقات في وثيقة.في هذه الورقة، نقترح إطار رواية E2GRE (الكيان والأدلة استخراج التعادل الموجود) التي تستخرج العلاقات بشكل مشترك وعمليات الأدلة الأساسية باستخدام نموذج اللغة المسبق الكبير (LM) كمشفر مدخلات.أولا، نقترح توجيه آلية انتباه LM مسبقا للتركيز على السياق ذي الصلة باستخدام احتمالات الاهتمام كميزات إضافية لتنبؤ الأدلة.علاوة على ذلك، بدلا من إطعام المستند بأكمله إلى LMS محداس للحصول على تمثيل كيان، نسلسل نص المستندات مع كيانات رئيسية للمساعدة في تركيز LMS على أجزاء من الوثيقة التي ترتبط أكثر بكيان الرأس.تتعلم E2GRE لدينا بشكل مشترك استخراج العلاقة والتنبؤ بالأدلة بفعالية، مما يدل على مكاسب كبيرة على كل من هذه المهام، والتي نجدها مرتبطة بشدة.
إن جودة أنظمة تبسيط النص الآلي بالكامل ليست جيدة بما يكفي للاستخدام في إعدادات العالم الحقيقي؛بدلا من ذلك، يتم استخدام التبسيط البشري.في هذه الورقة، ندرس كيفية تحسين تكلفة وجودة التبسيط البشري من خلال الاستفادة من الجماعة الجماعية.نقدم نهج الانصهار ا لجملة في الرسم البياني لزيادة التبسيط البشري ونهج إعادة النشر لكل من تحديد المبسط عالية الجودة والسماح باستهداف التبسيط بمستويات متفاوتة من البساطة.باستخدام DataSet Newsela (XU et al.، 2015) نظهر تحسينات متسقة على الخبراء في مستويات تبسيط مختلفة وتجد أن تبسيط الانصهار الجملة الإضافية تسمح بإخراج أبسط من التبسيط البشري وحدها.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا