حققت أنظمة ربط الكيان (EL) نتائج مثيرة للإعجاب على المعايير القياسية بشكل أساسي بفضل التمثيلات السياقية المقدمة من نماذج اللغة المحددة مسبقا.ومع ذلك، لا تزال هذه الأنظمة تتطلب كميات ضخمة من البيانات - ملايين الأمثلة المسمى - في أفضل حالاتهم، مع أوقات تدريبية تتجاوز غالبا عدة أيام، خاصة عندما تتوفر موارد حسابية محدودة.في هذه الورقة، ننظر إلى كيفية استغلال التعرف على الكيان المسمى (ner) لتضييق الفجوة بين أنظمة EL المدربين على كميات عالية ومنخفضة من البيانات المسمى.وبشكل أكثر تحديدا، نوضح كيف وإلى أي مدى يمكن للنظام أن يستفيد نظام EL من NER لتعزيز تمثيلات كيانه، وتحسين اختيار المرشح، وحدد عينات سلبية أكثر فعالية وفرض قيود صلبة وناعمة على كيانات الإخراج.نطلق سراح البرامج ونقاط التفتيش النموذجية - في https://github.com/babelscape/ner4el.
Entity Linking (EL) systems have achieved impressive results on standard benchmarks mainly thanks to the contextualized representations provided by recent pretrained language models. However, such systems still require massive amounts of data -- millions of labeled examples -- to perform at their best, with training times that often exceed several days, especially when limited computational resources are available. In this paper, we look at how Named Entity Recognition (NER) can be exploited to narrow the gap between EL systems trained on high and low amounts of labeled data. More specifically, we show how and to what extent an EL system can benefit from NER to enhance its entity representations, improve candidate selection, select more effective negative samples and enforce hard and soft constraints on its output entities. We release our software -- code and model checkpoints -- at https://github.com/Babelscape/ner4el.
المراجع المستخدمة
https://aclanthology.org/
يلخص الحوار يساعد القراء على التقاط المعلومات البارزة من محادثات طويلة في الاجتماعات والمقابلات والمسلسلات التلفزيونية. ومع ذلك، فإن حوالات العالم الحقيقي تشكل تحديا كبيرا لنماذج التلخيص الحالية، حيث يتجاوز طول الحوار عادة حدود المدخلات التي تفرضها ا
الملخص ندرس التعلم التعرف على الكيان المسمى في وجود التعليقات التوضيحية في الكيان المفقود.نحن نقترب من هذا الإعداد باسم وضع علامات مع المتغيرات الكامنة واقتراح خسارة جديدة، ونسبة الكيان المتوقعة، لتعلم النماذج بحضور العلامات المفقودة بشكل منهجي.نظرا
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات
في الوقت الحاضر، حقق التعرف على الكيان المسمى (NER) نتائج ممتازة على الشركة القياسية.ومع ذلك، فإن المشكلات الكبيرة تنشأ مع الحاجة إلى تطبيق في مجال معين، لأنه يتطلب جدارا الشكل المشروح مع مجموعة علامات NE مكيفة.هذا واضح بشكل خاص في مجال معالجة المستن
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا