ترغب بنشر مسار تعليمي؟ اضغط هنا

تأثير الاحتجاج في تلخيص الاستخراج للمستندات العلمية

The Effect of Pretraining on Extractive Summarization for Scientific Documents

418   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

لقد شهدت النماذج الكبيرة الاحترادية نجاحا هائلا في مهام تلخيص الاستخراجية.في هذا العمل، يمكننا التحقيق في تأثير الاحتجاج على نظام تلخيص استخراج استخراج بيرت للوثائق العلمية.نحن نستمد تحسينات كبيرة من الأداء باستخدام خطوة محاكاة وسيطة تستفيد من مجموعات بيانات التلخيص الحالية والإبلاغ عن نتائج أحدث النتائج في مجموعة بيانات التلخيص العلمية التي تم إصدارها مؤخرا، SCITLDR.نقوم بتحليل خطوة محاكاة الوسيطة بشكل منهجي عن طريق تغيير حجم ومجال الإصلاح، وتغيير طول تسلسل الإدخال في المهمة المستهدفة والمهام المستهدفة المتغيرة.نحن نحقق أيضا كيف يتفاعل الوسيطة التي تتفاعل مع تضمين الكلمات السياقية المدربة على المجالات المختلفة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يؤدي استخراج الموجات القصيرة تلقائيا من المستندات العلمية إلى تمثيل موجز قيم يمكن أن يفهم البشر ويمكنهم معالجة الآلات للمهام، مثل استرجاع المعلومات، تجميع المقالات وتصنيف المادة.تهتم هذه الورقة بأجزاء مقالة علمية يجب أن تعطى كمدخلات لطرق استخراج الحر ارة.تأخذ أساليب التعلم العميق الحديثة الألقاب والملخصات كمدخلات بسبب زيادة التعقيد الحسابي في معالجة التسلسلات الطويلة، في حين أن الأساليب التقليدية يمكن أن تعمل أيضا مع النصوص الكاملة.العناوين والملخصات كثيفة في الجماهيرية، ولكن غالبا ما تفوت جوانب مهمة من المقالات، في حين أن النصوص الكاملة من ناحية أخرى أكثر ثراء في الجماهيرية ولكن الكثير من الضويرة.لمعالجة هذه المفاضلة، نقترح استخدام نماذج تلخيص الاستخراجية على النصوص الكاملة للمستندات العلمية.تظهر دراستنا التجريبية على 3 مجموعات مقالات باستخدام 3 طرق استخراج المفاتيح 3 نتائج واعدة.
استخراج الجزء الأكثر أهمية من وثائق التشريعات له قيمة عمل كبيرة لأن النصوص عادة ما تكون طويلة جدا ويصعب فهمها.الهدف من هذه المقالة هو تقييم خوارزميات مختلفة لتلخيص النص على وثائق تشريعات الاتحاد الأوروبي.يحتوي المحتوى على كلمات خاصة بالمجال.جمعنا مجم وعة بيانات تلخيص نصية من الوثائق القانونية للاتحاد الأوروبي والتي تتكون من 1563 وثيقة، والتي متوسط طول الملخصات هو 424 كلمة.أجريت التجارب مع خوارزميات مختلفة باستخدام DataSet الجديدة.تم اختيار خوارزمية استخراجية بسيطة كأساس.الخوارزميات الاستخراجية المتقدمة، والتي تستخدم التشفير تظهر نتائج أفضل من خط الأساس.تم تحقيق أفضل نتيجة تقاس بواسطة درجات Rouge بواسطة نموذج T5 المبشط الذي تم ضبطه بشكل جيد، والذي تم تكييفه للعمل مع النصوص الطويلة.
تهدف تلخيص النص الاستخراجي إلى استخراج الأحكام الأكثر تمثيلا من وثيقة معينة كملخص لها. لاستخراج ملخص جيد من وثيقة نصية طويلة، يلعب تضمين الجملة دورا مهما. تتمتع الدراسات الحديثة باختصار شبكات عصبية لالتقاط العلاقة بين العلاقة بين الأمريكيين (مثل الرس م البياني للخطوط) داخل الوثائق لتعلم تضمين الجملة السياقية. ومع ذلك، فإن تلك النهج لا تنظر في أنواع متعددة من العلاقات بين العلاقات بين العلاقات بين العلاقات بين العلاقات العامة (على سبيل المثال، علاقات التدوين الدلالي والاتصال الطبيعي)، ولا علاقات نموذجية نموذجية (E.G، التشابه الدلالي والعلاقة الأساسية بين الكلمات). لمعالجة هذه المشكلات، نقترح شبكة تفصيلية رواية متعددة الأجزاء (متعددة الجنسيات) إلى نموذج أنواع مختلفة من العلاقات بين الجمل والكلمات. استنادا إلى Multi-GCN، نقترح طراز موجز جراب متعدد الأطراف (متعدد الأجراس) لتلخيص نص استخراج. أخيرا، نقوم بتقييم النماذج المقترحة على مجموعة بيانات CNN / DailyMaMail القياسية لإظهار فعالية طريقتنا.
تهدف التلخيص التلقائي إلى استخراج معلومات مهمة من كميات كبيرة من البيانات النصية من أجل إنشاء إصدار أقصر من النصوص الأصلية مع الحفاظ على معلوماتها. تعتمد تدريب نماذج تلخيص الاستخراجية التقليدية بشكل كبير على الملصقات المهندسة البشرية مثل التعليقات ال توضيحية على مستوى الجملة للجدارة القصيرة. ومع ذلك، في العديد من حالات الاستخدام، فإن هذه الملصقات المهندسة البشرية غير موجودة وتشريح يدويا الآلاف من المستندات لغرض نماذج التدريب قد لا تكون ممكنة. من ناحية أخرى، غالبا ما تكون إشارات غير مباشرة للتلخيص متاحة، مثل إجراءات الوكيل لحوارات خدمة العملاء، العناوين الرئيسية للمقالات الإخبارية، التشخيص للسجلات الصحية الإلكترونية، إلخ. في هذه الورقة، نقوم بتطوير إطار عام يولد تلخيصا استخراجا نتيجة ثانوية من مهام التعلم الإشراف للإشارات غير المباشرة عبر مساعدة آلية الاهتمام. نختبر نماذجنا على حوارات خدمة العملاء ونتائج التجريبية أظهرت أن نماذجنا يمكن أن تختار بشكل موثوق الجمل والكلمات الإعلامية للتلخيص التلقائي.
لالتقاط بنية الرسم البياني الدلالي من النص الخام، يتم بناء معظم طرق التلخيص الموجودة على GNNS مع نموذج مدرب مسبقا.ومع ذلك، فإن هذه الأساليب تعاني من إجراءات مرهقة وحسابات غير فعالة وثائق نصية طويلة.لتخفيف هذه المشكلات، تقترح هذه الورقة HETFORMER، وهو نموذج مدرب مسبقا من المحولات مع انتباه متفرج متعدد الحبيبات لتلخيص الاستخراجي لفترة طويلة.على وجه التحديد، نقوم بالنماذج أنواع مختلفة من العقد الدلالية في النص الخام كشركة بيانية غير متجانسة محتملة وتعلم العلاقات المخللة بشكل مباشر (حواف) بين العقد بواسطة المحول.تظهر تجارب واسعة النطاق على كل من مهام تلخيص مستندات واحدة ومتعددة المستندات أن HETFORMER تحقق أداء حديثة في Rouge F1 أثناء استخدام ذاكرة أقل ومعلمات أقل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا