لتكون قادرا على مشاركة المعلومات القيمة في سجلات المرضى الإلكترونية (EPR)، يلزم تحديدها أولا لحماية خصوصية مواضيعهم. التعرف على الكيان المسمى والتصنيف (NERC) هو جزء مهم من هذه العملية. في السنوات الأخيرة، قامت نماذج اللغة للأغراض العامة المدربة مسبقا على كميات كبيرة من البيانات، ولا سيما بيرت، حققت حالة من النتائج الفنية في NERC، من بين مهام NLP الأخرى. ومع ذلك، حتى الآن، لم يتم إجراء أي محاولات في تطبيق Bert for Nerc على بيانات EPR السويدية. تحاول الدراسة أن تتلقى نماذج برت سويدية ونموذج واحد متعدد اللغات لنموذج NERC على كوربوس EPR السويدية. الهدف من ذلك هو تقييم قابلية تطبيق نماذج بيرت لهذه المهمة وكذلك مقارنة النموذجين في مهمة لغة سويدية خاصة بالمجال. مع النموذج السويدي، يتم استدعاء 0.9220 ودقة 0.9226. هذا تحسن للنتائج السابقة على نفس الكائنات منذ الاستدعاء العالي لا تضحي الدقة. نظرا لأن النماذج تؤدي أيضا بشكل جيد نسبيا عندما يتم ضبطها بشكل جيد مع بيانات مشكرة، فستكون هناك إمكانات جيدة في استخدام هذه الطريقة في نظام قابل للإزالة القابلة للإزالة للنص السريري السويدي.
To be able to share the valuable information in electronic patient records (EPR) they first need to be de-identified in order to protect the privacy of their subjects. Named entity recognition and classification (NERC) is an important part of this process. In recent years, general-purpose language models pre-trained on large amounts of data, in particular BERT, have achieved state of the art results in NERC, among other NLP tasks. So far, however, no attempts have been made at applying BERT for NERC on Swedish EPR data. This study attempts to fine-tune one Swedish BERT-model and one multilingual BERT-model for NERC on a Swedish EPR corpus. The aim is to assess the applicability of BERT-models for this task as well as to compare the two models in a domain-specific Swedish language task. With the Swedish model, recall of 0.9220 and precision of 0.9226 is achieved. This is an improvement to previous results on the same corpus since the high recall does not sacrifice precision. As the models also perform relatively well when fine-tuned with pseudonymised data, it is concluded that there is good potential in using this method in a shareable de-identification system for Swedish clinical text.
References used
https://aclanthology.org/
Pretrained language models like BERT have advanced the state of the art for many NLP tasks. For resource-rich languages, one has the choice between a number of language-specific models, while multilingual models are also worth considering. These mode
Although pre-trained big models (e.g., BERT, ERNIE, XLNet, GPT3 etc.) have delivered top performance in Seq2seq modeling, their deployments in real-world applications are often hindered by the excessive computations and memory demand involved. For ma
This paper presents our findings from participating in the SMM4H Shared Task 2021. We addressed Named Entity Recognition (NER) and Text Classification. To address NER we explored BiLSTM-CRF with Stacked Heterogeneous embeddings and linguistic feature
Cross-domain Named Entity Recognition (NER) transfers the NER knowledge from high-resource domains to the low-resource target domain. Due to limited labeled resources and domain shift, cross-domain NER is a challenging task. To address these challeng
Nested Named Entity Recognition (NNER) has been extensively studied, aiming to identify all nested entities from potential spans (i.e., one or more continuous tokens). However, recent studies for NNER either focus on tedious tagging schemas or utiliz