ترغب بنشر مسار تعليمي؟ اضغط هنا

Juribert: التكيف النموذجي اللغوي المصنوع من النص القانوني الفرنسي

JuriBERT: A Masked-Language Model Adaptation for French Legal Text

329   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أثبتت نماذج اللغة أنها مفيدة للغاية عند تكييفها مع مجالات محددة.ومع ذلك، تم إجراء القليل من الأبحاث على تكيف نماذج بيرت الخاصة بالمجال في اللغة الفرنسية.في هذه الورقة، نركز على إنشاء نموذج لغة تتكيف مع النص القانوني الفرنسي بهدف مساعدة محترفي القانون.نستنتج أن بعض المهام المحددة لا تستفيد من نماذج اللغة العامة المدربة مسبقا على كميات كبيرة من البيانات.نستكشف استخدام الهندسة الصغيرة في اللغات الفرعية الخاصة بالمجال ومزاياها للنص القانوني الفرنسي.نثبت أن النماذج المحددة مسبقا للمجال يمكن أن تؤدي أفضل من تلك المعادلة المكافئة في المجال القانوني.أخيرا، نطلق سراح جوريبارت، مجموعة جديدة من نماذج بيرت تتكيف مع المجال القانوني الفرنسي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

باللغة العربية، يتم استخدام علامات التشكيل لتحديد المعاني وكذلك النطق.ومع ذلك، غالبا ما يتم حذف الدروع من النصوص المكتوبة، مما يزيد من عدد المعاني والنطوقتين المحتملة.هذا يؤدي إلى نص غامض ويجعل العملية الحسابية على النص غير المسموح به أكثر صعوبة.في ه ذه الورقة، نقترح نموذج إعماري لغوي للترشف عن النص العربي (لاماد).في لاماد، يتم تقديم تمثيل ميزة لغوية جديدة، والذي يستخدم كل من ملامح الكلمة والأحرف السياقية.بعد ذلك، يقترح آلية الاهتمام اللغوي التقاط الميزات اللغوية المهمة.بالإضافة إلى ذلك، نستكشف تأثير الميزات اللغوية المستخرجة من النص على درج النص العربي (ATD) عن طريق إدخالها لآلية الاهتمام اللغوي.توضح النتائج التجريبية الواسعة على ثلاث مجموعات بيانات بأحجام مختلفة أن لاماد تتفوق على النماذج الحالية للحالة.
الاستدلال السببية هو عملية التقاط علاقة تأثير السبب بين المتغيرات.تركز معظم الأعمال الموجودة على التعامل مع البيانات المنظمة، أثناء التعدين العلاقة السببية بين عوامل البيانات غير المنظمة، مثل النص، أقل فحصا، ولكنها ذات أهمية كبيرة، خاصة في المجال الق انوني.في هذه الورقة، نقترح إطار الاستدلال السببية المستندة إلى الرسم البياني (GCI) على الرواية، والذي يبني الرسوم البيانية السببية من أوصاف الحقائق دون تورط إنساني كبير ويمكن الاستدلال السببية لتسهيل الممارسين القانونيين لإجراء قرارات مناسبة.نقيم الإطار على مهمة تحدي مهمة غموض مماثلة.تظهر النتائج التجريبية أن GCI يمكن أن تلتقط نفاد الفقراء من أوصاف الحقائق بين رسوم مربكة متعددة وتوفير تمييز قابل للتفسير، وخاصة في إعدادات قليلة.نلاحظ أيضا أن المعرفة السببية الواردة في GCI يمكن حقنها بشكل فعال في شبكات عصبية قوية لتحسين الأداء والتفسيرية.
إن تطبيق تقنيات الترميز التنبؤية للنصوص القانونية لديه القدرة على تقليل تكلفة المراجعة القانونية للوثائق، ومع ذلك، هناك مثل هذه المجموعة الواسعة من المهام القانونية والتشريعات المتطورة باستمرار من الصعب بناء بيانات تدريبية كافية لتغطية جميعهاحالات.في هذه الورقة، نقوم بالتحقيق في طرق قليلة من الأساطير والرصاص التي تتطلب بيانات تدريب أقل بكثير وإدخال هندسة ثلاثية، والتي تنتج البيانات الإذنية أداء قريبة من نظام نظام إشرافي.تسمح هذه الطريقة بطرق ترميز التنبؤ أن يتم تطويرها بسرعة للوائح والأسواق الجديدة.
أصبحت النماذج القائمة على المحولات القياسية الفعلية في مجال معالجة اللغة الطبيعية (NLP).من خلال الاستفادة من نصائح النص غير المستمر الكبيرة، فإنها تمكن من التعلم الفعال للتحويل المؤدي إلى نتائج أحدث النتائج في العديد من مهام NLP.ومع ذلك، بالنسبة إلى لغات الموارد المنخفضة والمهام المتخصصة للغاية، تميل نماذج المحولات إلى التخلف عن الأساليب الكلاسيكية أكثر (على سبيل المثال SVM، LSTM) بسبب الافتقار إلى كورسا المذكور أعلاه.في هذه الورقة نركز على المجال القانوني ونحن نقدم نموذج برت روماني مدربا مسبقا على كوربوس متخصص كبير.تتفوق نموذجنا على العديد من خطوط خطوط خطوط خطوط خطوط خطية قوية للتنبؤ بالحكم القانوني على شركتين مختلفين تتكون من حالات من المحاكمات التي تنطوي على البنوك في رومانيا.
غالبا ما يتم فحص النصوص القانونية القديمة وترقيمها عبر التعرف على الأحرف البصرية (OCR)، مما يؤدي إلى العديد من الأخطاء.على الرغم من أن لعبة الداما الإملائية والقواعد النحوية يمكن أن تصحيح الكثير من النص الممسوح ضوئيا تلقائيا، فإن التعرف على الكيان ال مسمى (NER) صعبة، مما يجعل تصحيح الأسماء صعبة.لحل هذا، قمنا بتطوير نموذج لغة فرقة باستخدام بنية محولات في الشبكة العصبية جنبا إلى جنب مع آلة حالة محددة لاستخراج الأسماء من النص القانوني باللغة الإنجليزية.نحن نستخدم مشروع الوصول إلى هارفارد كاسيلاو في الولايات المتحدة للتدريب والاختبار.بعد ذلك، تعرض الأسماء المستخرجة للتحليل النصي المثيرة لتحديد الأخطاء وإجراء تصحيحات وقياس مدى المشكلات.مع هذا النظام، نحن قادرون على استخراج معظم الأسماء، وتصحيح الأخطاء العديدة تلقائيا وتحديد الأخطاء المحتملة التي يمكن مراجعتها لاحقا للتصحيح اليدوي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا