إن إزالة الكيانات المسماة (NED)، والتي تنطوي على رسم الخرائط النصية للكيانات الهيكلية، تحديا بشكل خاص في المجال الطبي بسبب وجود كيانات نادرة.تقتصر الأساليب الحالية بوجود الموارد الهيكلية الخشونة في قواعد المعرفة الطبية الحيوية وكذلك استخدام مجموعات البيانات التدريبية التي توفر تغطية منخفضة على الموارد غير الشائعة.في هذا العمل، نتعلم هذه المشكلات من خلال اقتراح طريقة تكامل بيانات عبر المجال التي تنقل المعرفة الهيكلية من قاعدة معارف النص العامة إلى المجال الطبي.نحن نستخدم مخطط الاندماج لدينا لزيادة الموارد الهيكلية وتوليد مجموعة بيانات كبيرة بييوميديا للأحاد المحاكمة.يحقق نموذج عائليتنا مع المعرفة الهيكلية المحقونة أداء حديثة على مجموعة بيانات القياس الطبية القياسية: التوصيلات و BC5CDR.علاوة على ذلك، فإننا نحسن الغموض من كيانات نادرة تصل إلى 57 نقطة دقة.
Named entity disambiguation (NED), which involves mapping textual mentions to structured entities, is particularly challenging in the medical domain due to the presence of rare entities. Existing approaches are limited by the presence of coarse-grained structural resources in biomedical knowledge bases as well as the use of training datasets that provide low coverage over uncommon resources. In this work, we address these issues by proposing a cross-domain data integration method that transfers structural knowledge from a general text knowledge base to the medical domain. We utilize our integration scheme to augment structural resources and generate a large biomedical NED dataset for pretraining. Our pretrained model with injected structural knowledge achieves state-of-the-art performance on two benchmark medical NED datasets: MedMentions and BC5CDR. Furthermore, we improve disambiguation of rare entities by up to 57 accuracy points.
المراجع المستخدمة
https://aclanthology.org/
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا
يعرف تطبيق المتخصص في مجال التعرف على الكيان المسمى (ner) باسم الطيوميدي (Bioner)، الذي يهدف إلى تحديد وتصنيف المفاهيم الطبية الحيوية التي تهم الباحثين، مثل الجينات والبروتينات والمركبات الكيميائية والمخدرات والطفرات والأمراض ، وما إلى ذلك وهلم جرا.
وقد ثبت أن التعرف على الكيان المسمى (NER) قد يستفيد من دمج المعلومات المهيكلة لمسافات طويلة التي تم التقاطها بواسطة أشجار التبعية. نعتقد أن هذا هو أن كلا النوعين من الميزات - المعلومات السياقية التي تم التقاطها من خلال التسلسلات الخطية والمعلومات الم
ينقل التعرف على الكيان المسمى عبر المجال (NER) المعرفة NER من مجالات الموارد العالية إلى المجال المستهدف منخفض الموارد. نظرا للموارد المحدودة المسمى وانعكاف المجال، تعد Nor Cross-Domain مهمة صعبة. لمعالجة هذه التحديات، نقترح نهج تقطير المعرفة في مجال
يعد التعرف على الكيان المسمى مهمة أساسية في معالجة اللغة الطبيعية للكشف عن الكيانات وتصنيفها إلى فئات محددة سلفا. كيان هو كلمة ذات معنى، أو عبارة تشير إلى الأسماء المناسبة. تلعب الكيانات المسماة دورا مهما في مهام NLP المختلفة مثل استخراج المعلومات، و