على الرغم من النجاح الواسع النطاق للتعلم الإشراف على الذات من خلال نماذج لغة ملثم (MLM)، فإن التقاط علاقات الدلالية الدقيقة الدقيقة في المجال الطبي الحيوي يظل تحديا. هذا أمر بالغ الأهمية لمهام مستوى الكيان مثل الكيان الذي يربط حيث القدرة على نموذج العلاقات الكيانية (خاصة المرادف) محورية. لمعالجة هذا التحدي، نقترح Sapbert، وهو مخطط الاحتجاط بأنه يتماشى على مساحة التمثيل من الكيانات الطبية الحيوية. نقوم بتصميم إطار تعلم متري قابل للتطوير الذي يمكنه الاستفادة من UMLs، وهي مجموعة هائلة من الأنتولوج الطبي الطبيعي مع مفاهيم 4M +. على النقيض من ذلك مع أنظمة Hybrid التي تعتمد على الأنابيب السابقة، تقدم Sapbert حلا أنيقا نموذجيا لمشكلة ربط الكيان الطبي (MEL)، وتحقيق حالة جديدة من بين الفن (SOTA) على ستة MEL Benchmark مجموعات البيانات. في المجال العلمي، نحقق سوتا حتى بدون إشراف خاص بمهام المهام. مع تحسن كبير على مختلف MLMS المحدد مسبقا للمجال مثل BioBert و SciberTand و PubMedbert، يثبت نظامنا المحدد فعال وقوي.
Despite the widespread success of self-supervised learning via masked language models (MLM), accurately capturing fine-grained semantic relationships in the biomedical domain remains a challenge. This is of paramount importance for entity-level tasks such as entity linking where the ability to model entity relations (especially synonymy) is pivotal. To address this challenge, we propose SapBERT, a pretraining scheme that self-aligns the representation space of biomedical entities. We design a scalable metric learning framework that can leverage UMLS, a massive collection of biomedical ontologies with 4M+ concepts. In contrast with previous pipeline-based hybrid systems, SapBERT offers an elegant one-model-for-all solution to the problem of medical entity linking (MEL), achieving a new state-of-the-art (SOTA) on six MEL benchmarking datasets. In the scientific domain, we achieve SOTA even without task-specific supervision. With substantial improvement over various domain-specific pretrained MLMs such as BioBERT, SciBERTand and PubMedBERT, our pretraining scheme proves to be both effective and robust.
References used
https://aclanthology.org/
Introducing biomedical informatics (BMI) students to natural language processing (NLP) requires balancing technical depth with practical know-how to address application-focused needs. We developed a set of three activities introducing introductory BM
In this paper we present the FJWU's system submitted to the biomedical shared task at WMT21. We prepared state-of-the-art multilingual neural machine translation systems for three languages (i.e. German, Spanish and French) with English as target lan
Cross-lingual entity alignment (EA) aims to find the equivalent entities between crosslingual KGs (Knowledge Graphs), which is a crucial step for integrating KGs. Recently, many GNN-based EA methods are proposed and show decent performance improvemen
Entity retrieval, which aims at disambiguating mentions to canonical entities from massive KBs, is essential for many tasks in natural language processing. Recent progress in entity retrieval shows that the dual-encoder structure is a powerful and ef
This paper describes the Fujitsu DMATH systems used for WMT 2021 News Translation and Biomedical Translation tasks. We focused on low-resource pairs, using a simple system. We conducted experiments on English-Hausa, Xhosa-Zulu and English-Basque, and