ترغب بنشر مسار تعليمي؟ اضغط هنا

دراسة مقارنة حول النهج المبادرة والاستخراطية في تلخيص وثائق التشريعات الأوروبية

A Comparative Study on Abstractive and Extractive Approaches in Summarization of European Legislation Documents

798   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

استخراج الجزء الأكثر أهمية من وثائق التشريعات له قيمة عمل كبيرة لأن النصوص عادة ما تكون طويلة جدا ويصعب فهمها.الهدف من هذه المقالة هو تقييم خوارزميات مختلفة لتلخيص النص على وثائق تشريعات الاتحاد الأوروبي.يحتوي المحتوى على كلمات خاصة بالمجال.جمعنا مجموعة بيانات تلخيص نصية من الوثائق القانونية للاتحاد الأوروبي والتي تتكون من 1563 وثيقة، والتي متوسط طول الملخصات هو 424 كلمة.أجريت التجارب مع خوارزميات مختلفة باستخدام DataSet الجديدة.تم اختيار خوارزمية استخراجية بسيطة كأساس.الخوارزميات الاستخراجية المتقدمة، والتي تستخدم التشفير تظهر نتائج أفضل من خط الأساس.تم تحقيق أفضل نتيجة تقاس بواسطة درجات Rouge بواسطة نموذج T5 المبشط الذي تم ضبطه بشكل جيد، والذي تم تكييفه للعمل مع النصوص الطويلة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

حققت نماذج التسلسل العصبي (SEQ2SEQ) ونماذج بيرت تحسينات كبيرة في تلخيص وثائق المبادرة (الإعلانات) دون ومع مسبق التدريب، على التوالي.ومع ذلك، فإنهم يحضرون في بعض الأحيان مرارا وتكرارا عبارات المصدر غير مهم بينما يتجاهل عن طريق الخطأ تلك المهمة.نقدم آل يات إعادة الإعمار على مستويين لتخفيف هذه المشكلة.يعيد إعادة تعيين مستوى التسلسل على مستوى التسلسل الوثيقة بأكملها من الطبقة المخفية من الملخص المستهدف، في حين أن كلمة تضمين المستوى يعيد إعادة إنشاء واحد من متوسط كلمة Word للمصدر في الجانب المستهدف لضمان إدراج أكبر قدر ممكن من المعلومات الهامة في الملخصبقدر الإمكان.بناء على افتراض تقيس تدابير تردد الوثيقة العكسية (IDF) مدى أهمية كلمة كلمة، فإننا نستفيد إلى زيادة أوزان جيش الدفاع الإسرائيلي في إعادة بناء مستوى التضمين لدينا.تؤدي الأطر المقترحة إلى تحسينات واعدة لمقاييس الحمر والتصنيف البشري على مجموعات بيانات تلخيص CNN / Daily البريدية وحكم الأخبار.
لقد شهدت النماذج الكبيرة الاحترادية نجاحا هائلا في مهام تلخيص الاستخراجية.في هذا العمل، يمكننا التحقيق في تأثير الاحتجاج على نظام تلخيص استخراج استخراج بيرت للوثائق العلمية.نحن نستمد تحسينات كبيرة من الأداء باستخدام خطوة محاكاة وسيطة تستفيد من مجموعا ت بيانات التلخيص الحالية والإبلاغ عن نتائج أحدث النتائج في مجموعة بيانات التلخيص العلمية التي تم إصدارها مؤخرا، SCITLDR.نقوم بتحليل خطوة محاكاة الوسيطة بشكل منهجي عن طريق تغيير حجم ومجال الإصلاح، وتغيير طول تسلسل الإدخال في المهمة المستهدفة والمهام المستهدفة المتغيرة.نحن نحقق أيضا كيف يتفاعل الوسيطة التي تتفاعل مع تضمين الكلمات السياقية المدربة على المجالات المختلفة.
يؤدي التكرار في جيل اللغة الطبيعية إلى تقليل معلومات النص ويجعله أقل جاذبية.تم اقتراح تقنيات مختلفة لتخفيفها.في هذا العمل، نستكشف واقتراح تقنيات للحد من التكرار في تلخيص مبادرة.أولا، نستكشف تطبيق التدريب غير المحامي وتضمين المصفوفين من العمل السابق ع لى نمذجة اللغة إلى تلخيص مبادرة.بعد ذلك، نقوم بتوسيع التغطية وآليات الاهتمام الزمني إلى مستوى الرمز المميز للحد من التكرار.في تجاربنا على مجموعة بيانات CNN / Daily Mail، نلاحظ أن هذه التقنيات تقلل من مقدار التكرار وزيادة معلومات الإصلاحية من الملخصات، والتي نؤكد عن طريق التقييم البشري.
أصبحت الشبكات العصبية العميقة ونماذج اللغة الضخمة في كل شيء في تطبيقات اللغة الطبيعية. نظرا لأنهم معروفون بطلب كميات كبيرة من بيانات التدريب، فهناك مجموعة متنامية من العمل لتحسين الأداء في إعدادات الموارد المنخفضة. بدافع من التغييرات الأساسية الأخيرة نحو النماذج العصبية والطائرة المسبقة والتدريب الشائعة النغمات الجميلة، نقوم بمسح نهج واعدة لمعالجة اللغات الطبيعية المنخفضة الموارد. بعد مناقشة حول الأبعاد المختلفة لتوفر البيانات، نقدم نظرة عامة منظم على الطرق التي تمكن التعلم عند انتشار البيانات التدريبية. يشتمل ذلك على آليات لإنشاء بيانات إضافية مصممة مثل تكبير البيانات والإشراف البعيد بالإضافة إلى إعدادات التعلم التي تقلل من الحاجة إلى الإشراف المستهدف. الهدف من المسح لدينا هو شرح كيف تختلف هذه الطرق في متطلباتهم كضمين لهم ضروري لاختيار تقنية مناسبة لإعداد محدد من الموارد منخفضة. هناك جوانب رئيسية أخرى لهذا العمل هي تسليط الضوء على القضايا المفتوحة وإطلاع الإرشادات الواعدة للبحث في المستقبل.
الملخص نقدم المحول الكمي (كيو تي)، نظام غير مؤظفي لتلخيص الرأي الاستخراجي.يستلهم كيو تي عن طريق السيارات الآلية المتناقلة الكمية، والتي نعدها لتلخيص الشعبية.يستخدم تفسير تجميع الفضاء الكمي وقواريل استخراج جديدة لاكتشاف الآراء الشعبية بين مئات من المر اجعات، وهي خطوة كبيرة نحو تلخيص الرأي للنطاق العملي.بالإضافة إلى ذلك، تتيح كيو تي تلخيص قابل للتحكم دون مزيد من التدريب، من خلال الاستفادة من خصائص المساحة الكمي لاستخراج الملخصات الخاصة بالجانب.كما نجعل مساحة متاحة للجمهور، معيار تقييم واسع النطاق لرموز الرأي، يشتمل على ملخصات عامة وجوقية خاصة ب 50 فندقا.توضح التجارب وعد نهجنا، والتي تتم التحقق من صحتها عن طريق الدراسات الإنسانية حيث أظهر القضاة تفضيل واضح لطريقنا على خطوط الأساس التنافسية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا