ترغب بنشر مسار تعليمي؟ اضغط هنا

Longsumm 2021: نموذج تلخيص تلقائي في الجلسة المستند العلمي

LongSumm 2021: Session based automatic summarization model for scientific document

303   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تركز معظم مهمة التلخيص على توليد ملخصات قصيرة نسبيا.قد لا يكون هذا القيد الطول مناسبا عند تلخيص العمل العلمي.يحتاج المهمة LongsUMS إلى المشاركين الذين يولدون ملخصا طويلا للمستند العلمي.هذه المهمة المعتادة يمكن حلها حسب نموذج اللغة.ولكن هناك مشكلة مهمة هي أن النموذج مثل بيرت هو الحد من الذاكرة، ولا يمكن التعامل مع إدخال طويل مثل المستند.أيضا توليد إخراج طويل أمر صعب.في هذه الورقة، نقترح نموذجا موجزا في الدورة (SBAs) باستخدام جلسة وآلية فرقة لتوليد ملخص طويل.ونموذجنا يحصل على أفضل أداء في مهمة Longsumm.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

العروض التقديمية مهمة للتواصل في جميع مجالات حياتنا، ومع ذلك فإن إنشاء الطوابق الشريحة غالبا ما تكون مملة وتستهلك الوقت.كان هناك بحث محدود يهدف إلى أتمتة عملية توليد المستندات إلى الشرائح وجميع مواجهة التحدي الحرج: لا توجد مجموعة بيانات متاحة للجمهور للتدريب والمعايير.في هذا العمل، فإننا نساهم أولا في مجموعة بيانات جديدة، Sciduet، تتكون من أزواج من الأوراق وحوابق الشرائح المقابلة من مؤتمرات NLP و ML الأخيرة (E.G.، ACL).ثانيا، نقدم D2S، وهو نظام جديد يتناول مهمة المستندات إلى الشرائح مع نهج من خطوتين: 1) استخدم عناوين الشريحة لاسترداد النص والأرقام والجشطة ذات الصلة والجاذبية؛2) لخص السياق المسترجع في نقاط رصاصة مع الإجابة على سؤال طويل الشكل.يشير تقييمنا إلى أن ضميز ضمنيا طويل النموذج يتفوق على خطوط الأساس الملخص لحدي الفن على كل من مقاييس الحمر التلقائي والتقييم البشري النوعي.
قيود مشاركة البيانات شائعة في مجموعات بيانات NLP.الغرض من هذه المهمة هو تطوير نموذج مدرب في مجال المصدر لجعل تنبؤات للمجال المستهدف مع بيانات المجال ذات الصلة.لمعالجة هذه المسألة، قدم المنظمون النماذج التي يتم ضبطها بشكل جيد على عدد كبير من بيانات مج ال المصدر على النماذج المدربة مسبقا وبيانات DEV للمشاركين.ولكن لم يتم توزيع بيانات مجال المصدر.تصف هذه الورقة النموذج المقدم إلى مهمة NER (التعرف على كيان الاسم) وطرق تطوير النموذج.كقليل من البيانات المقدمة، تكون النماذج المدربة مسبقا مناسبة لحل المهام عبر المجال.يمكن أن تكون النماذج التي تم ضبطها من قبل عدد كبير من مجال آخر فعال في مجال جديد لأن المهمة لم تكن هناك تغيير.
تقدم هذه الورقة نهجا استخراج غير مخطئ لتلخيص المستندات الطويلة العلمية بناء على مبدأ اختناق المعلومات.مستوحاة من العمل السابق الذي يستخدم مبدأ اختناق المعلومات لضغط الجملة، فإننا نقدمها لتلخيص مستوى الوثيقة مع خطوتين منفصلين.في الخطوة الأولى، نستخدم إشارة (إشارات) كاستعلامات لاسترداد المحتوى الرئيسي من المستند المصدر.بعد ذلك، يقوم نموذج لغة مدرب مسبقا بإجراء المزيد من الجملة والتحرير لإرجاع الملخصات المستخرجة النهائية.الأهم من ذلك، يمكن امتدت عملنا بمرونة إلى إطار متعدد المشاهدات من قبل إشارات مختلفة.التقييم التلقائي على ثلاث مجموعات بيانات وثيقة علمية تتحقق من فعالية الإطار المقترح.يشير التقييم البشري الإضافي إلى أن الملخصات المستخرجة تغطي المزيد من جوانب المحتوى أكثر من النظم السابقة.
لقد شهدت النماذج الكبيرة الاحترادية نجاحا هائلا في مهام تلخيص الاستخراجية.في هذا العمل، يمكننا التحقيق في تأثير الاحتجاج على نظام تلخيص استخراج استخراج بيرت للوثائق العلمية.نحن نستمد تحسينات كبيرة من الأداء باستخدام خطوة محاكاة وسيطة تستفيد من مجموعا ت بيانات التلخيص الحالية والإبلاغ عن نتائج أحدث النتائج في مجموعة بيانات التلخيص العلمية التي تم إصدارها مؤخرا، SCITLDR.نقوم بتحليل خطوة محاكاة الوسيطة بشكل منهجي عن طريق تغيير حجم ومجال الإصلاح، وتغيير طول تسلسل الإدخال في المهمة المستهدفة والمهام المستهدفة المتغيرة.نحن نحقق أيضا كيف يتفاعل الوسيطة التي تتفاعل مع تضمين الكلمات السياقية المدربة على المجالات المختلفة.
يمكن أن تكون كمية المعلومات المتاحة عبر الإنترنت ساحقة للمستخدمين من هضمها، خاصة عند التعامل مع تعليقات المستخدمين الآخرين عند اتخاذ قرار بشأن شراء منتج أو خدمة. في هذا السياق، تكون أنظمة تلخيص الرأي ذات قيمة كبيرة، واستخراج معلومات مهمة من النصوص وت قديمها للمستخدم بطريقة أكثر فهمة. من المعروف أيضا أن استخدام التمثيلات الدلالية يمكن أن يفيدن جودة الملخصات التي تم إنشاؤها. تهدف هذه الورقة إلى تطوير أساليب تلخيص الرأي بناء على مجردة معنى تمثيل النصوص في اللغة البرتغالية البرازيلية. تم التحقيق في أربع طرق مختلفة، إلى جانب بعض مناهج الأدب. تظهر النتائج أن الأسلوب المستند إلى جهاز التعلم الآلي أنتج ملخصات ذات جودة أعلى، مما يتفوق على تقنيات الأدب الأخرى على الرسوم البيانية الدلالية المصنوعة يدويا. نعرض أيضا أن استخدام الرسوم البيانية المحيطة بها أكثر من تلك المشروح يدويا ضرر بالإخراج. أخيرا، يشير تحليل مدى أهمية أنواع المعلومات المختلفة لعملية التلخيص إلى أن استخدام ميزات تحليل المعرفات لم يحسن جودة ملخص.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا