التعرف على الكيانات المسماة الحالية في النص هو خطوة مهمة نحو استخراج المعلومات وفهم اللغة الطبيعية.يعرض هذا العمل نظام التعرف على الكيان المسمى للنشاط القانوني الروماني.يستفيد النظام من Corpus Gold Legalnero المشروح.علاوة على ذلك، يجمع النظام بين العديد من العروض التوزيعية للكلمات، بما في ذلك Word Ageddings المدربين على كوربوس مجال قانوني كبير.جميع الموارد، بما في ذلك Corpus، النموذج و Adgeddings مفتوحة مفتوحة.أخيرا، يتوفر أفضل نظام للاستخدام المباشر في منصة Relale.
Recognition of named entities present in text is an important step towards information extraction and natural language understanding. This work presents a named entity recognition system for the Romanian legal domain. The system makes use of the gold annotated LegalNERo corpus. Furthermore, the system combines multiple distributional representations of words, including word embeddings trained on a large legal domain corpus. All the resources, including the corpus, model and word embeddings are open sourced. Finally, the best system is available for direct usage in the RELATE platform.
المراجع المستخدمة
https://aclanthology.org/
غالبا ما يتم فحص النصوص القانونية القديمة وترقيمها عبر التعرف على الأحرف البصرية (OCR)، مما يؤدي إلى العديد من الأخطاء.على الرغم من أن لعبة الداما الإملائية والقواعد النحوية يمكن أن تصحيح الكثير من النص الممسوح ضوئيا تلقائيا، فإن التعرف على الكيان ال
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا
ينقل التعرف على الكيان المسمى عبر المجال (NER) المعرفة NER من مجالات الموارد العالية إلى المجال المستهدف منخفض الموارد. نظرا للموارد المحدودة المسمى وانعكاف المجال، تعد Nor Cross-Domain مهمة صعبة. لمعالجة هذه التحديات، نقترح نهج تقطير المعرفة في مجال
يعرف تطبيق المتخصص في مجال التعرف على الكيان المسمى (ner) باسم الطيوميدي (Bioner)، الذي يهدف إلى تحديد وتصنيف المفاهيم الطبية الحيوية التي تهم الباحثين، مثل الجينات والبروتينات والمركبات الكيميائية والمخدرات والطفرات والأمراض ، وما إلى ذلك وهلم جرا.
إن إزالة الكيانات المسماة (NED)، والتي تنطوي على رسم الخرائط النصية للكيانات الهيكلية، تحديا بشكل خاص في المجال الطبي بسبب وجود كيانات نادرة.تقتصر الأساليب الحالية بوجود الموارد الهيكلية الخشونة في قواعد المعرفة الطبية الحيوية وكذلك استخدام مجموعات ا