ركز العمل السابق على ربط الكيان على الموارد المستهدفة التي يذكر الكيان المسمى غير المتداخلة غير المتداخلة، وغالبا ما تكون في بيانات من ويكيبيديا، أي Wikification.في هذه الورقة، نقدم وتقييم Wikigum، ومجموعة بيانات مميزة بالكامل، والتي تغطي جميع الإشراهات من الكيانات المسماة، بما في ذلك تذكرها غير المسماة وغير المسماة، وكذلك تذكر متداخلة داخل الإشراهات الأخرى.تغطي مجموعة البيانات مجموعة واسعة من 12 نوعا مكتوبا وتحطمنا، والتي لم يتم تضمين معظمها في كيان يربط الجهود حتى الآن، مما يؤدي إلى ضعف الأداء من قبل نظام Sota المحدد في تقييمنا.يتيح توافر مجموعة متنوعة من التعليقات التوضيحية الأخرى لنفس البيانات أيضا البحث عن كيانات في السياق.
Previous work on Entity Linking has focused on resources targeting non-nested proper named entity mentions, often in data from Wikipedia, i.e. Wikification. In this paper, we present and evaluate WikiGUM, a fully wikified dataset, covering all mentions of named entities, including their non-named and pronominal mentions, as well as mentions nested within other mentions. The dataset covers a broad range of 12 written and spoken genres, most of which have not been included in Entity Linking efforts to date, leading to poor performance by a pretrained SOTA system in our evaluation. The availability of a variety of other annotations for the same data also enables further research on entities in context.
المراجع المستخدمة
https://aclanthology.org/
حققت أنظمة ربط الكيان (EL) نتائج مثيرة للإعجاب على المعايير القياسية بشكل أساسي بفضل التمثيلات السياقية المقدمة من نماذج اللغة المحددة مسبقا.ومع ذلك، لا تزال هذه الأنظمة تتطلب كميات ضخمة من البيانات - ملايين الأمثلة المسمى - في أفضل حالاتهم، مع أوقات
الكيانات الطبية الحيوية المسماة معقدة، لذلك تم استخدام مطابقة تقريبية لتحسين تغطية الكيان.ومع ذلك، فإن نهج المطابقة التقريب المعتادة يجلب نتيجة مطابقة واحدة فقط، والتي غالبا ما تكون صاخبة.في هذا العمل، نقترح طريقة لنقل الطبية الحيوية التي يجلب مباريا
الخلاف بين المبرمجين هو في كل مكان في جميع مجموعات البيانات المشروحة بأحكام بشرية في كل من معالجة اللغة الطبيعية ورؤية الكمبيوتر.ومع ذلك، تفترض معظم أساليب تعلم الآلات الأكثر إشرافا أن التفسير المفضل الوحيد موجود لكل عنصر، وهو في أحسن الأحوال مثالية.
نظرا لعدد كبير من الكيانات في قواعد المعرفة الطبية الحيوية، فإن جزء بسيط من الكيانات الصغيرة فقط بيانات التدريب المسمى. وهذا يستلزم كيان ربط النماذج التي يمكن أن تصل إلى ربط تذكر الكيانات غير المرئية باستخدام التمثيلات المستفادة للكيانات. يتذكر كل من
ربط الكيان مشكلة مهمة في العديد من التطبيقات. تم تصميم معظم الحلول السابقة للإعدادات حيث تتوفر بيانات التدريب المشروح، ومع ذلك، ليس الحال في العديد من المجالات. نقترح طريقة ربط كيان خفيف الوزن وقابل للتطوير، وهي eigenthemes، والتي تعتمد فقط على توافر