في هذه الورقة، نقدم نيريل، مجموعة بيانات روسية للتعرف على الكيان المسمى واستخراج العلاقة.نيريل أكبر بكثير من مجموعات البيانات الروسية القائمة: حتى الآن تحتوي على 56 كيلو كيانات المسماة المشروحة وعلاقات مشروحة 39 ألفا.الفرق المهم له من مجموعات البيانات السابقة هو شرح للكيانات المسماة المتداخلة، وكذلك العلاقات داخل الكيانات المتداخلة وفي مستوى الخطاب.يمكن أن تسهل نيريل تطوير نماذج جديدة يمكنها استخراج العلاقات بين الكيانات المسماة المتداخلة، وكذلك العلاقات في كل من المستويات والوثائق.يحتوي نيريل أيضا على شرح الأحداث التي تنطوي على الكيانات المسماة وأدوارها في الأحداث.تتوفر مجموعة Nerel عبر https://github.com/nerel-ds/nerel.
In this paper, we present NEREL, a Russian dataset for named entity recognition and relation extraction. NEREL is significantly larger than existing Russian datasets: to date it contains 56K annotated named entities and 39K annotated relations. Its important difference from previous datasets is annotation of nested named entities, as well as relations within nested entities and at the discourse level. NEREL can facilitate development of novel models that can extract relations between nested named entities, as well as relations on both sentence and document levels. NEREL also contains the annotation of events involving named entities and their roles in the events. The NEREL collection is available via https://github.com/nerel-ds/NEREL.
المراجع المستخدمة
https://aclanthology.org/
أظهرت نماذج الشبكة العصبية المستندة إلى ما يحقظ أن عروض حديثة (SOTA) على مهام معالجة اللغة الطبيعية (NLP). تعد تمثيل الجملة الأكثر استخداما لأساليب NLP ذات الاستخدام العصبي سلسلة من الكلمات الفرعية المختلفة عن تمثيل الجملة من الأساليب غير العصبية الت
تهدف مهمة الكشف عن الموقف إلى اكتشاف موقف سقسقة أو نص للحصول على هدف. يمكن تسمية هذه الأهداف كيانات أو جمل حرة (مطالبات). على الرغم من أن المهمة تنطوي على سبب سقسقة فيما يتعلق بهدف، إلا أننا نجد أنه من الممكن تحقيق دقة عالية على العديد من مجموعات بيا
الاعتراف بالكيانات المسماة في استفسارات محرك البحث القصيرة هي مهمة صعبة بسبب معلومات السياق الأضعف مقارنة بالجمل الطويلة.فشلت أنظمة التعرف على الكيان المسماة القياسية (NER) التي يتم تدريبها على الجمل الصحيحة والطويلة بشكل جيد على أداء هذه الاستفسارات
في هذه الورقة، نقترح إطار جيل عصبي قابل للتحكم يمكن أن توجه بمرونة تلخيص الحوار مع تخطيط الكيانات المسماة الشخصية. يتم تعديل التسلسلات الشرطية لتحديد أنواع المعلومات أو منظور التركيز عند تشكيل ملخصات لمعالجة المشكلة الخاضعة للحدود في مهام التلخصات. ي
مجردة التعرف على الكيانات المسماة (NER) هي مهمة NLP الأساسية، والتي صاغها عادة كتصنيف على سلسلة من الرموز. تشكل اللغات الغنية المورفولوجية (MRLS) تحديا لهذه الصياغة الأساسية، حيث لا تتزامن حدود الكيانات المسماة بالضرورة مع حدود الرمز المميز، بل يحترم