عادة ما تعتبر التشفير العصبي للأسماء الطبية الحيوية قوية إذا تم استغلال التمثيلات بشكل فعال لمختلف مهام NLP المصب المختلفة. لتحقيق ذلك، تحتاج المشفر إلى نموذج الدلالات الطبية الحيوية خاصة بالمجال مع تنافس التطبيق العالمي للتطبيق العالمي للإشراف على الإشراف على الذات. ركز العمل السابق بشأن التمثيلات القوية على تعلم الفروق المنخفضة المستوى بين أسماء المفاهيم الطبية الحيوية المحبوبة. يمكن أيضا تجميع هذه المفاهيم الرخيصة هذه معا لتعكس التفرقات الدلالية عالية المستوى والأكثر إنشيا، مثل تجميع أسماء اللحام اللدغة والحمى التي تنقلها القراد معا بموجب وصف ثقب الجلد. لم يتم تأكيده من التجريبية حتى الآن أن التدريب على ترميز الأسماء الطبية الحيوية على التمييز الدقيق يؤدي تلقائيا إلى الترميز من أسفل إلى أسفل من هذه الدلالات ذات المستوى الأعلى. في هذه الورقة، نظير على أن هذا التأثير القاع موجودا، لكنه لا يزال محدودا نسبيا. كحل، نقترح نظام تدريب متعدد المهام القابل للتوسيع لترميز الاسم الطبي الطبيعي الذي يمكن أن يتعلم أيضا تمثيلات قوية باستخدام فصول دلالية عالية المستوى فقط. هذه التمثيلات يمكن أن تعميم كل من القمة المتابعة وكذلك من أعلى إلى أسفل بين مختلف التسلسلات الدلالية. علاوة على ذلك، نوضح كيف يمكن استخدامها خارج الصندوق لتحسين الكشف غير المدعوم من الارتفاع غير المرغوب فيها، مع الاحتفاظ بأداء قوي على مختلف معايير المرتبطة الدلالية.
Neural encoders of biomedical names are typically considered robust if representations can be effectively exploited for various downstream NLP tasks. To achieve this, encoders need to model domain-specific biomedical semantics while rivaling the universal applicability of pretrained self-supervised representations. Previous work on robust representations has focused on learning low-level distinctions between names of fine-grained biomedical concepts. These fine-grained concepts can also be clustered together to reflect higher-level, more general semantic distinctions, such as grouping the names nettle sting and tick-borne fever together under the description puncture wound of skin. It has not yet been empirically confirmed that training biomedical name encoders on fine-grained distinctions automatically leads to bottom-up encoding of such higher-level semantics. In this paper, we show that this bottom-up effect exists, but that it is still relatively limited. As a solution, we propose a scalable multi-task training regime for biomedical name encoders which can also learn robust representations using only higher-level semantic classes. These representations can generalise both bottom-up as well as top-down among various semantic hierarchies. Moreover, we show how they can be used out-of-the-box for improved unsupervised detection of hypernyms, while retaining robust performance on various semantic relatedness benchmarks.
References used
https://aclanthology.org/
Relation prediction informed from a combination of text corpora and curated knowledge bases, combining knowledge graph completion with relation extraction, is a relatively little studied task. A system that can perform this task has the ability to ex
While much research has been done in text-to-image synthesis, little work has been done to explore the usage of linguistic structure of the input text. Such information is even more important for story visualization since its inputs have an explicit
Machine translation models have discrete vocabularies and commonly use subword segmentation techniques to achieve an open vocabulary.' This approach relies on consistent and correct underlying unicode sequences, and makes models susceptible to degrad
Current language models are usually trained using a self-supervised scheme, where the main focus is learning representations at the word or sentence level. However, there has been limited progress in generating useful discourse-level representations.
We introduce the new task of domain name dispute resolution (DNDR), that predicts the outcome of a process for resolving disputes about legal entitlement to a domain name. TheICANN UDRP establishes a mandatory arbitration process for a dispute betwee