أثبتت نماذج اللغة أنها مفيدة للغاية عند تكييفها مع مجالات محددة.ومع ذلك، تم إجراء القليل من الأبحاث على تكيف نماذج بيرت الخاصة بالمجال في اللغة الفرنسية.في هذه الورقة، نركز على إنشاء نموذج لغة تتكيف مع النص القانوني الفرنسي بهدف مساعدة محترفي القانون.نستنتج أن بعض المهام المحددة لا تستفيد من نماذج اللغة العامة المدربة مسبقا على كميات كبيرة من البيانات.نستكشف استخدام الهندسة الصغيرة في اللغات الفرعية الخاصة بالمجال ومزاياها للنص القانوني الفرنسي.نثبت أن النماذج المحددة مسبقا للمجال يمكن أن تؤدي أفضل من تلك المعادلة المكافئة في المجال القانوني.أخيرا، نطلق سراح جوريبارت، مجموعة جديدة من نماذج بيرت تتكيف مع المجال القانوني الفرنسي.
Language models have proven to be very useful when adapted to specific domains. Nonetheless, little research has been done on the adaptation of domain-specific BERT models in the French language. In this paper, we focus on creating a language model adapted to French legal text with the goal of helping law professionals. We conclude that some specific tasks do not benefit from generic language models pre-trained on large amounts of data. We explore the use of smaller architectures in domain-specific sub-languages and their benefits for French legal text. We prove that domain-specific pre-trained models can perform better than their equivalent generalised ones in the legal domain. Finally, we release JuriBERT, a new set of BERT models adapted to the French legal domain.
المراجع المستخدمة
https://aclanthology.org/
باللغة العربية، يتم استخدام علامات التشكيل لتحديد المعاني وكذلك النطق.ومع ذلك، غالبا ما يتم حذف الدروع من النصوص المكتوبة، مما يزيد من عدد المعاني والنطوقتين المحتملة.هذا يؤدي إلى نص غامض ويجعل العملية الحسابية على النص غير المسموح به أكثر صعوبة.في ه
الاستدلال السببية هو عملية التقاط علاقة تأثير السبب بين المتغيرات.تركز معظم الأعمال الموجودة على التعامل مع البيانات المنظمة، أثناء التعدين العلاقة السببية بين عوامل البيانات غير المنظمة، مثل النص، أقل فحصا، ولكنها ذات أهمية كبيرة، خاصة في المجال الق
إن تطبيق تقنيات الترميز التنبؤية للنصوص القانونية لديه القدرة على تقليل تكلفة المراجعة القانونية للوثائق، ومع ذلك، هناك مثل هذه المجموعة الواسعة من المهام القانونية والتشريعات المتطورة باستمرار من الصعب بناء بيانات تدريبية كافية لتغطية جميعهاحالات.في
أصبحت النماذج القائمة على المحولات القياسية الفعلية في مجال معالجة اللغة الطبيعية (NLP).من خلال الاستفادة من نصائح النص غير المستمر الكبيرة، فإنها تمكن من التعلم الفعال للتحويل المؤدي إلى نتائج أحدث النتائج في العديد من مهام NLP.ومع ذلك، بالنسبة إلى
غالبا ما يتم فحص النصوص القانونية القديمة وترقيمها عبر التعرف على الأحرف البصرية (OCR)، مما يؤدي إلى العديد من الأخطاء.على الرغم من أن لعبة الداما الإملائية والقواعد النحوية يمكن أن تصحيح الكثير من النص الممسوح ضوئيا تلقائيا، فإن التعرف على الكيان ال