استخراج الجزء الأكثر أهمية من وثائق التشريعات له قيمة عمل كبيرة لأن النصوص عادة ما تكون طويلة جدا ويصعب فهمها.الهدف من هذه المقالة هو تقييم خوارزميات مختلفة لتلخيص النص على وثائق تشريعات الاتحاد الأوروبي.يحتوي المحتوى على كلمات خاصة بالمجال.جمعنا مجموعة بيانات تلخيص نصية من الوثائق القانونية للاتحاد الأوروبي والتي تتكون من 1563 وثيقة، والتي متوسط طول الملخصات هو 424 كلمة.أجريت التجارب مع خوارزميات مختلفة باستخدام DataSet الجديدة.تم اختيار خوارزمية استخراجية بسيطة كأساس.الخوارزميات الاستخراجية المتقدمة، والتي تستخدم التشفير تظهر نتائج أفضل من خط الأساس.تم تحقيق أفضل نتيجة تقاس بواسطة درجات Rouge بواسطة نموذج T5 المبشط الذي تم ضبطه بشكل جيد، والذي تم تكييفه للعمل مع النصوص الطويلة.
Extracting the most important part of legislation documents has great business value because the texts are usually very long and hard to understand. The aim of this article is to evaluate different algorithms for text summarization on EU legislation documents. The content contains domain-specific words. We collected a text summarization dataset of EU legal documents consisting of 1563 documents, in which the mean length of summaries is 424 words. Experiments were conducted with different algorithms using the new dataset. A simple extractive algorithm was selected as a baseline. Advanced extractive algorithms, which use encoders show better results than baseline. The best result measured by ROUGE scores was achieved by a fine-tuned abstractive T5 model, which was adapted to work with long texts.
المراجع المستخدمة
https://aclanthology.org/
حققت نماذج التسلسل العصبي (SEQ2SEQ) ونماذج بيرت تحسينات كبيرة في تلخيص وثائق المبادرة (الإعلانات) دون ومع مسبق التدريب، على التوالي.ومع ذلك، فإنهم يحضرون في بعض الأحيان مرارا وتكرارا عبارات المصدر غير مهم بينما يتجاهل عن طريق الخطأ تلك المهمة.نقدم آل
لقد شهدت النماذج الكبيرة الاحترادية نجاحا هائلا في مهام تلخيص الاستخراجية.في هذا العمل، يمكننا التحقيق في تأثير الاحتجاج على نظام تلخيص استخراج استخراج بيرت للوثائق العلمية.نحن نستمد تحسينات كبيرة من الأداء باستخدام خطوة محاكاة وسيطة تستفيد من مجموعا
يؤدي التكرار في جيل اللغة الطبيعية إلى تقليل معلومات النص ويجعله أقل جاذبية.تم اقتراح تقنيات مختلفة لتخفيفها.في هذا العمل، نستكشف واقتراح تقنيات للحد من التكرار في تلخيص مبادرة.أولا، نستكشف تطبيق التدريب غير المحامي وتضمين المصفوفين من العمل السابق ع
أصبحت الشبكات العصبية العميقة ونماذج اللغة الضخمة في كل شيء في تطبيقات اللغة الطبيعية. نظرا لأنهم معروفون بطلب كميات كبيرة من بيانات التدريب، فهناك مجموعة متنامية من العمل لتحسين الأداء في إعدادات الموارد المنخفضة. بدافع من التغييرات الأساسية الأخيرة
الملخص نقدم المحول الكمي (كيو تي)، نظام غير مؤظفي لتلخيص الرأي الاستخراجي.يستلهم كيو تي عن طريق السيارات الآلية المتناقلة الكمية، والتي نعدها لتلخيص الشعبية.يستخدم تفسير تجميع الفضاء الكمي وقواريل استخراج جديدة لاكتشاف الآراء الشعبية بين مئات من المر