غالبا ما يتم فحص النصوص القانونية القديمة وترقيمها عبر التعرف على الأحرف البصرية (OCR)، مما يؤدي إلى العديد من الأخطاء.على الرغم من أن لعبة الداما الإملائية والقواعد النحوية يمكن أن تصحيح الكثير من النص الممسوح ضوئيا تلقائيا، فإن التعرف على الكيان المسمى (NER) صعبة، مما يجعل تصحيح الأسماء صعبة.لحل هذا، قمنا بتطوير نموذج لغة فرقة باستخدام بنية محولات في الشبكة العصبية جنبا إلى جنب مع آلة حالة محددة لاستخراج الأسماء من النص القانوني باللغة الإنجليزية.نحن نستخدم مشروع الوصول إلى هارفارد كاسيلاو في الولايات المتحدة للتدريب والاختبار.بعد ذلك، تعرض الأسماء المستخرجة للتحليل النصي المثيرة لتحديد الأخطاء وإجراء تصحيحات وقياس مدى المشكلات.مع هذا النظام، نحن قادرون على استخراج معظم الأسماء، وتصحيح الأخطاء العديدة تلقائيا وتحديد الأخطاء المحتملة التي يمكن مراجعتها لاحقا للتصحيح اليدوي.
Older legal texts are often scanned and digitized via Optical Character Recognition (OCR), which results in numerous errors. Although spelling and grammar checkers can correct much of the scanned text automatically, Named Entity Recognition (NER) is challenging, making correction of names difficult. To solve this, we developed an ensemble language model using a transformer neural network architecture combined with a finite state machine to extract names from English-language legal text. We use the US-based English language Harvard Caselaw Access Project for training and testing. Then, the extracted names are subjected to heuristic textual analysis to identify errors, make corrections, and quantify the extent of problems. With this system, we are able to extract most names, automatically correct numerous errors and identify potential mistakes that can later be reviewed for manual correction.
References used
https://aclanthology.org/
Recognition of named entities present in text is an important step towards information extraction and natural language understanding. This work presents a named entity recognition system for the Romanian legal domain. The system makes use of the gold
Nested Named Entity Recognition (NNER) has been extensively studied, aiming to identify all nested entities from potential spans (i.e., one or more continuous tokens). However, recent studies for NNER either focus on tedious tagging schemas or utiliz
This paper presents our findings from participating in the SMM4H Shared Task 2021. We addressed Named Entity Recognition (NER) and Text Classification. To address NER we explored BiLSTM-CRF with Stacked Heterogeneous embeddings and linguistic feature
To audit the robustness of named entity recognition (NER) models, we propose RockNER, a simple yet effective method to create natural adversarial examples. Specifically, at the entity level, we replace target entities with other entities of the same
Named entity disambiguation (NED), which involves mapping textual mentions to structured entities, is particularly challenging in the medical domain due to the presence of rare entities. Existing approaches are limited by the presence of coarse-grain