ترغب بنشر مسار تعليمي؟ اضغط هنا

الاسم المسمى للكيان في النص القانوني التاريخي: طريقة فرقة محول وآلة الدولة

Named Entity Recognition in Historic Legal Text: A Transformer and State Machine Ensemble Method

270   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

غالبا ما يتم فحص النصوص القانونية القديمة وترقيمها عبر التعرف على الأحرف البصرية (OCR)، مما يؤدي إلى العديد من الأخطاء.على الرغم من أن لعبة الداما الإملائية والقواعد النحوية يمكن أن تصحيح الكثير من النص الممسوح ضوئيا تلقائيا، فإن التعرف على الكيان المسمى (NER) صعبة، مما يجعل تصحيح الأسماء صعبة.لحل هذا، قمنا بتطوير نموذج لغة فرقة باستخدام بنية محولات في الشبكة العصبية جنبا إلى جنب مع آلة حالة محددة لاستخراج الأسماء من النص القانوني باللغة الإنجليزية.نحن نستخدم مشروع الوصول إلى هارفارد كاسيلاو في الولايات المتحدة للتدريب والاختبار.بعد ذلك، تعرض الأسماء المستخرجة للتحليل النصي المثيرة لتحديد الأخطاء وإجراء تصحيحات وقياس مدى المشكلات.مع هذا النظام، نحن قادرون على استخراج معظم الأسماء، وتصحيح الأخطاء العديدة تلقائيا وتحديد الأخطاء المحتملة التي يمكن مراجعتها لاحقا للتصحيح اليدوي.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

التعرف على الكيانات المسماة الحالية في النص هو خطوة مهمة نحو استخراج المعلومات وفهم اللغة الطبيعية.يعرض هذا العمل نظام التعرف على الكيان المسمى للنشاط القانوني الروماني.يستفيد النظام من Corpus Gold Legalnero المشروح.علاوة على ذلك، يجمع النظام بين الع ديد من العروض التوزيعية للكلمات، بما في ذلك Word Ageddings المدربين على كوربوس مجال قانوني كبير.جميع الموارد، بما في ذلك Corpus، النموذج و Adgeddings مفتوحة مفتوحة.أخيرا، يتوفر أفضل نظام للاستخدام المباشر في منصة Relale.
تم دراسة التعرف على الكيان المسمى Nestate (NNER) على نطاق واسع، تهدف إلى تحديد جميع الكيانات المتداخلة من تمديدات محتملة (I.E.، واحد أو أكثر من الرموز المستمرة). ومع ذلك، فإن الدراسات الحديثة لأي نانر إما التركيز على مخططات العلامات الشاقة أو الاستفا دة من الهياكل المعقدة، والتي تفشل في تعلم تمثيلات فعالة من جملة المدخلات مع كيانات متداخلة للغاية. بمعنى حدسي، ستساهم تمثيلات صريحة في نانر بسبب معلومات السياق الغنية التي تحتوي عليها. في هذه الدراسة، نقترح شبكة محول هرمية (HITRANS) للمهمة NNER، والتي تتحلل جملة الإدخال إلى تمثال متعدد الحبوب وتعزز التعلم التمثيل بطريقة هرمية. على وجه التحديد، نستخدم أول وحدة من المرحلة الأولى لتوليد تمثيلات تمتد عن طريق معلومات السياق التجميعية بناء على شبكة محول من أسفل إلى أعلى وهبوطا. ثم تم تصميم طبقة التنبؤ الملصق للتعرف على الكيانات المتداخلة هرمية، والتي تستكشف بشكل طبيعي التبعيات الدلالية بين تمديد مختلفة. تثبت تجارب مجموعات بيانات Genia و ACE-2004 و ACE-2005 و NNE أن طريقةنا المقترحة تحقق أداء أفضل بكثير من النهج التي من بين الفني.
تقدم هذه الورقة نتائجنا من المشاركة في المهمة المشتركة SMM4H 2021. تناولنا التعرف على الكيان المسمى (NER) وتصنيف النص.لمعالجة NER، استكشفنا Bilstm-CRF مع تضمين مخلجان مكدسة وميزات لغوية.حققنا في العديد من خوارزميات التعلم في الآلات (الانحدار اللوجستي ، SVM والشبكات العصبية) لمعالجة تصنيف النص.يمكن التعميم مناهجنا المقترحة لغات مختلفة وقد أظهرنا فعاليتها للغة الإنجليزية والإسبانية.حققت تقارير تصنيف النص لدينا أداء تنافسي مع درجة F1 0.46 و 0.90 على تصنيف ADE (المهمة 1A) وتصنيف المهنة (المهمة 7A) على التوالي.في حالة NER، سجلت عمليات التقديمات لدينا درجة F1 من 0.50 و 0.82 على اكتشاف ADE SPAN (المهمة 1B) والكشف عن المهنة (المهمة 7 ب) على التوالي.
لتدقيق متانة نماذج التعرف على الكيان المسماة (NER)، نقترح روكر، وسيلة بسيطة ولكنها فعالة لإنشاء أمثلة خصومة طبيعية. على وجه التحديد، على مستوى الكيان، نحل محل الكيانات المستهدفة مع كيانات أخرى من نفس الطبقة الدلالية في ويكيداتا؛ على مستوى السياق، نست خدم نماذج اللغة المدربة مسبقا (E.G.، Bert) لتوليد بدائل النصية. معا، تنتج مستويين AT- TACH أمثلة مخدرة طبيعية تؤدي إلى توزيع تحول من البيانات التدريبية التي تم تدريب نماذجنا المستهدفة عليها. نحن نطبق الطريقة المقترحة على مجموعة بيانات Ontonotes وإنشاء معيار جديد يدعى OnTorock لتقييم متانة النماذج NER الحالية عبر بروتوكول تقييم منهجي. تجاربنا وتحليلنا تكشف أنه حتى أفضل نموذج له انخفاض كبير في الأداء، ويبدو أن هذه النماذج تحفز أنماط كيان داخل المجال بدلا من التفكير من السياق. يدرس عملنا أيضا آثار عدد قليل من أساليب تكبير البيانات البسيطة لتحسين متانة نماذج NER.
إن إزالة الكيانات المسماة (NED)، والتي تنطوي على رسم الخرائط النصية للكيانات الهيكلية، تحديا بشكل خاص في المجال الطبي بسبب وجود كيانات نادرة.تقتصر الأساليب الحالية بوجود الموارد الهيكلية الخشونة في قواعد المعرفة الطبية الحيوية وكذلك استخدام مجموعات ا لبيانات التدريبية التي توفر تغطية منخفضة على الموارد غير الشائعة.في هذا العمل، نتعلم هذه المشكلات من خلال اقتراح طريقة تكامل بيانات عبر المجال التي تنقل المعرفة الهيكلية من قاعدة معارف النص العامة إلى المجال الطبي.نحن نستخدم مخطط الاندماج لدينا لزيادة الموارد الهيكلية وتوليد مجموعة بيانات كبيرة بييوميديا للأحاد المحاكمة.يحقق نموذج عائليتنا مع المعرفة الهيكلية المحقونة أداء حديثة على مجموعة بيانات القياس الطبية القياسية: التوصيلات و BC5CDR.علاوة على ذلك، فإننا نحسن الغموض من كيانات نادرة تصل إلى 57 نقطة دقة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا