في هذه الورقة، نقدم تحديثا كبيرا إلى أول بيانات كيكة مجرية مسماة، The Szeged Ner Corpus.استخدمنا النقل الصفر - النار عبر اللغات لتهيئة تخصيب أنواع الكيان المشروح في الجسر باستخدام ثلاث نماذج NER العصبية: اثنان منها بناء على Corpus English Ontonotes و One استنادا إلى Czech Cority Corpus Corpus Finetuned من نماذج اللغة العصبية متعددة اللغاتوبعدتم دمج إخراج النماذج تلقائيا مع التوضيحية الأصلية NER، وتصحيحها تلقائيا وتوجه المزيد من التوضيح الإضافي، مثل التصفيات اللازمة لأنواع الكيانات المختلفة.نقدم تقييم الأداء الصفر بالرصاص للنماذج التي تستند إلى OnTonotes ونموذج NEM جديد يستند إلى المحولات التي تم تدريبها على الجزء التدريبي من The Final Corpus.نحن نفرج عن كوربوس والنموذج المدربين.
In this paper, we present a major update to the first Hungarian named entity dataset, the Szeged NER corpus. We used zero-shot cross-lingual transfer to initialize the enrichment of entity types annotated in the corpus using three neural NER models: two of them based on the English OntoNotes corpus and one based on the Czech Named Entity Corpus finetuned from multilingual neural language models. The output of the models was automatically merged with the original NER annotation, and automatically and manually corrected and further enriched with additional annotation, like qualifiers for various entity types. We present the evaluation of the zero-shot performance of the two OntoNotes-based models and a transformer-based new NER model trained on the training part of the final corpus. We release the corpus and the trained model.
المراجع المستخدمة
https://aclanthology.org/
التلخصات القائمة على الجانب المجردة هي مهمة توليد ملخصات مركزة تستند إلى نقاط اهتمام محددة. هذه الملخصات تساعد تحليل فعال للنص، مثل فهم الاستعراضات أو الآراء بسرعة من زوايا مختلفة. ومع ذلك، نظرا للاختلافات الكبيرة في نوع الجوانب لمجالات مختلفة (مثل ا
الاعتراف بالكيانات المسماة في استفسارات محرك البحث القصيرة هي مهمة صعبة بسبب معلومات السياق الأضعف مقارنة بالجمل الطويلة.فشلت أنظمة التعرف على الكيان المسماة القياسية (NER) التي يتم تدريبها على الجمل الصحيحة والطويلة بشكل جيد على أداء هذه الاستفسارات
في الوقت الحاضر، حقق التعرف على الكيان المسمى (NER) نتائج ممتازة على الشركة القياسية.ومع ذلك، فإن المشكلات الكبيرة تنشأ مع الحاجة إلى تطبيق في مجال معين، لأنه يتطلب جدارا الشكل المشروح مع مجموعة علامات NE مكيفة.هذا واضح بشكل خاص في مجال معالجة المستن
تطبق الغالبية العظمى من الأساليب الحالية لتخصيص التصنيفات في تطبق Adgeddings Word لأنها أثبتت تجميع السياقات (بمعنى واسع) المستخرجة من النصوص التي تكفي إرفاق الكلمات الأيتام بالتصنيف.من ناحية أخرى، وبصرف النظر عن كونها الموارد الكبيرة المعجمية واللال
نظرا لعدد كبير من الكيانات في قواعد المعرفة الطبية الحيوية، فإن جزء بسيط من الكيانات الصغيرة فقط بيانات التدريب المسمى. وهذا يستلزم كيان ربط النماذج التي يمكن أن تصل إلى ربط تذكر الكيانات غير المرئية باستخدام التمثيلات المستفادة للكيانات. يتذكر كل من