ترغب بنشر مسار تعليمي؟ اضغط هنا

الاستفادة الفعالة بيرت تصنيف الوثيقة القانونية

Effectively Leveraging BERT for Legal Document Classification

280   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

حقق تمثيلات تشفير ثنائية الاتجاه من المحولات (بيرت) عروضا حديثة على العديد من مهام تصنيف النص، مثل تحليل الغراء والمعنويات. بدأ العمل الأخير في المجال القانوني في استخدام بيرت في المهام، مثل التنبؤ بالحكم القانوني والتنبؤ بالانتهاك. تتمثل الممارسات الشائعة في استخدام Bert في ضبط نموذج مدرب مسبقا على مهمة مستهدفة واقتطع نصات الإدخال بحجم إدخال BERT (E.G. في معظم الرموز 512). ومع ذلك، نظرا للخصائص الفريدة للمستندات القانونية، فليس من الواضح كيفية التكيف بفعالية بيرت في المجال القانوني. في هذا العمل، نحقق في كيفية التعامل مع المستندات الطويلة، وكيفية أهمية التدريب المسبق على المستندات من نفس المجال باعتباره المهمة المستهدفة. نحن نقوم بإجراء تجارب على مجموعات البيانات الأخيرة: DataSet DataSet ECHR ومجموعة بيانات المهام الناجحة، وهي مهام التصنيف متعددة الملصقات والتصنيف الثنائي، على التوالي. الأهم من ذلك، في المتوسط ​​عدد الرموز في وثيقة من مجموعة بيانات انتهاك EURR أكثر من 1600. في حين أن المستندات الموجودة في مجموعة بيانات المهام الأساسية أقصر (الحد الأقصى لعدد الرموز 204). قارننا بدقة العديد من التقنيات لتكييف بيرت على وثائق طويلة ومقارنة النماذج المختلفة المدربة مسبقا على المجالات القانونية وغيرها. تظهر نتائجنا التجريبية أننا نحتاج إلى التكيف بشكل صريح بتكييف بيرت للتعامل مع المستندات الطويلة، حيث يؤدي اقتطاع إلى أداء أقل فعالية. وجدنا أيضا أن التدريب المسبق على المستندات التي تشبه المهمة المستهدفة ستؤدي إلى أداء أكثر فعالية في العديد من السيناريو.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الورقة نهجا استخراج غير مخطئ لتلخيص المستندات الطويلة العلمية بناء على مبدأ اختناق المعلومات.مستوحاة من العمل السابق الذي يستخدم مبدأ اختناق المعلومات لضغط الجملة، فإننا نقدمها لتلخيص مستوى الوثيقة مع خطوتين منفصلين.في الخطوة الأولى، نستخدم إشارة (إشارات) كاستعلامات لاسترداد المحتوى الرئيسي من المستند المصدر.بعد ذلك، يقوم نموذج لغة مدرب مسبقا بإجراء المزيد من الجملة والتحرير لإرجاع الملخصات المستخرجة النهائية.الأهم من ذلك، يمكن امتدت عملنا بمرونة إلى إطار متعدد المشاهدات من قبل إشارات مختلفة.التقييم التلقائي على ثلاث مجموعات بيانات وثيقة علمية تتحقق من فعالية الإطار المقترح.يشير التقييم البشري الإضافي إلى أن الملخصات المستخرجة تغطي المزيد من جوانب المحتوى أكثر من النظم السابقة.
يستخدم استخدام اللغة بين المجالات وحتى داخل المجال، يتغير استخدام اللغة بمرور الوقت. بالنسبة لنماذج اللغة المدربة مسبقا مثل Bert، فقد ثبت أن تكييف المجال من خلال استمرار التدريب المستمر لتحسين الأداء في مهام Towstream داخل المجال. في هذه المقالة، يمك ننا التحقيق فيما إذا كان التكيف الزمني يمكن أن يجلب فوائد إضافية. لهذا الغرض، نقدم كذبة من وسائل التواصل الاجتماعي تعليقات عينات أكثر من ثلاث سنوات. أنه يحتوي على بيانات غير مسؤولة عن التكيف والتقييم على مهمة نمذجة لغة ملثم في المنبع بالإضافة إلى البيانات المسمى للضبط الدقيق والتقييم في مهمة تصنيف المستندات المصب. نجد أن هذه المهام في كل من المهام: التكيف الزمني يحسن أداء مهام المهام المصب والصقل الزمني الصخري. تؤدي النماذج الزمنية الخاصة عموما بشكل عام في الماضي عن مجموعات الاختبار المستقبلية، مما يطابق الأدلة على الاستخدام الدائر للكلمات الموضعية. ومع ذلك، لا يحسن تكييف Bert to Time & Domain الأداء على المهمة المصب على التكيف فقط إلى المجال. يوضح تحليل المستوى الرمز المميز أن التكيف الزمني يلتقط التغييرات التي يحركها الأحداث في استخدام اللغة في مهمة المصب، ولكن ليس هذه التغييرات ذات الصلة بالفعل بأداء المهام. بناء على النتائج التي توصلنا إليها، نناقش متى قد يكون التكيف الزمني أكثر فعالية.
يوروفوك هو عبارات متعددة اللغات تم بناؤها لتنظيم الوثائقي التشريعي لمؤسسات الاتحاد الأوروبي.يحتوي على الآلاف من الفئات في مستويات مختلفة من الخصوصية وتستهدف واصفاتها من قبل النصوص القانونية في ثلاثين لغة تقريبا.في هذا العمل، نقترح إطارا موحدا لتصنيف EUROVOC في 22 لغة من خلال ضبط نماذج اللغة المحولات الحديثة التي تعتمد على المحولات.نحن ندرس على نطاق واسع أداء نماذجنا المدربة وإظهار أنها تعمل بشكل كبير على تحسين النتائج التي تم الحصول عليها بواسطة أداة مماثلة - جيم - على نفس مجموعة البيانات.تم فتح الرمز والنماذج التي تم ضبطها بشكل جيد مصادر، بالإضافة إلى واجهة برنامجية تخفف عملية تحميل أوزان طراز مدرب وتصنيف مستند جديد.
تصف هذه الورقة النماذج التي تم تطويرها من أجل تعدين وسائل التواصل الاجتماعي للصحة (SMM4H) 2021 المهام المشتركة.شارك فريقنا في المراكز الفرعية الأولى التي يصنف التغريدات مع تأثير المخدرات الضارة (ADE).يستخدم طراز أفضل أداء لدينا BERTWEAR متبوعة بطبقة واحدة من Bilstm.يحقق النظام درجة F 0.45 على مجموعة الاختبار دون استخدام أي موارد مساعدة مثل علامات جزء من الكلام أو علامات التبعية أو المعرفة من القواميس الطبية.
تدرس هذه الورقة التعلم المستمر (CL) بتسلسل مهام تصنيف معنويات الجانب (ASC).على الرغم من اقتراح بعض تقنيات CL لتصنيف معنويات المستندات، إلا أننا لسنا على علم بأي عمل CL على ASC.يجب أن يتعلم نظام CL الذي يتعلم تدريجيا سلسلة من مهام ASC المشكلتين التالي ين: (1) نقل المعرفة المستفادة من المهام السابقة إلى المهمة الجديدة للمساعدة في تعلم نموذج أفضل، و (2) الحفاظ على أداء النماذجالمهام السابقة بحيث لا تنسى.تقترح هذه الورقة نموذجا قائم على شبكة كبسولة رواية يسمى B-CL لمعالجة هذه المشكلات.ب-CL يحسن بشكل ملحوظ أداء ASC على كل من المهمة الجديدة والمهام القديمة عبر نقل المعرفة للأمام والخلف.يتم إثبات فعالية B-CL من خلال تجارب واسعة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا