لتكون قادرا على مشاركة المعلومات القيمة في سجلات المرضى الإلكترونية (EPR)، يلزم تحديدها أولا لحماية خصوصية مواضيعهم. التعرف على الكيان المسمى والتصنيف (NERC) هو جزء مهم من هذه العملية. في السنوات الأخيرة، قامت نماذج اللغة للأغراض العامة المدربة مسبقا على كميات كبيرة من البيانات، ولا سيما بيرت، حققت حالة من النتائج الفنية في NERC، من بين مهام NLP الأخرى. ومع ذلك، حتى الآن، لم يتم إجراء أي محاولات في تطبيق Bert for Nerc على بيانات EPR السويدية. تحاول الدراسة أن تتلقى نماذج برت سويدية ونموذج واحد متعدد اللغات لنموذج NERC على كوربوس EPR السويدية. الهدف من ذلك هو تقييم قابلية تطبيق نماذج بيرت لهذه المهمة وكذلك مقارنة النموذجين في مهمة لغة سويدية خاصة بالمجال. مع النموذج السويدي، يتم استدعاء 0.9220 ودقة 0.9226. هذا تحسن للنتائج السابقة على نفس الكائنات منذ الاستدعاء العالي لا تضحي الدقة. نظرا لأن النماذج تؤدي أيضا بشكل جيد نسبيا عندما يتم ضبطها بشكل جيد مع بيانات مشكرة، فستكون هناك إمكانات جيدة في استخدام هذه الطريقة في نظام قابل للإزالة القابلة للإزالة للنص السريري السويدي.
To be able to share the valuable information in electronic patient records (EPR) they first need to be de-identified in order to protect the privacy of their subjects. Named entity recognition and classification (NERC) is an important part of this process. In recent years, general-purpose language models pre-trained on large amounts of data, in particular BERT, have achieved state of the art results in NERC, among other NLP tasks. So far, however, no attempts have been made at applying BERT for NERC on Swedish EPR data. This study attempts to fine-tune one Swedish BERT-model and one multilingual BERT-model for NERC on a Swedish EPR corpus. The aim is to assess the applicability of BERT-models for this task as well as to compare the two models in a domain-specific Swedish language task. With the Swedish model, recall of 0.9220 and precision of 0.9226 is achieved. This is an improvement to previous results on the same corpus since the high recall does not sacrifice precision. As the models also perform relatively well when fine-tuned with pseudonymised data, it is concluded that there is good potential in using this method in a shareable de-identification system for Swedish clinical text.
المراجع المستخدمة
https://aclanthology.org/
تقدمت نماذج اللغة المحددة مثل بيرت حالة الفن للعديد من مهام NLP. لغات غنية بالموارد، لدى المرء الاختيار بين عدد من النماذج الخاصة باللغة، في حين أن النماذج متعددة اللغات تستحق الدراسة أيضا. هذه النماذج معروفة جيدا لأدائها Croadlingual، لكنها أظهرت أي
على الرغم من أن النماذج الكبيرة المدربة مسبقا (E.G.، Bert، Ernie، Xlnet، GPT3 وما إلى ذلك) قدمت أداء أعلى في النمذجة SEQ2SEQ، وغالبا ما تعوق عمليات نشرها في تطبيقات العالم الحقيقي بواسطة الحسابات المفرطة وطلب الذاكرة المعنية. بالنسبة للعديد من التطبي
تقدم هذه الورقة نتائجنا من المشاركة في المهمة المشتركة SMM4H 2021. تناولنا التعرف على الكيان المسمى (NER) وتصنيف النص.لمعالجة NER، استكشفنا Bilstm-CRF مع تضمين مخلجان مكدسة وميزات لغوية.حققنا في العديد من خوارزميات التعلم في الآلات (الانحدار اللوجستي
ينقل التعرف على الكيان المسمى عبر المجال (NER) المعرفة NER من مجالات الموارد العالية إلى المجال المستهدف منخفض الموارد. نظرا للموارد المحدودة المسمى وانعكاف المجال، تعد Nor Cross-Domain مهمة صعبة. لمعالجة هذه التحديات، نقترح نهج تقطير المعرفة في مجال
تم دراسة التعرف على الكيان المسمى Nestate (NNER) على نطاق واسع، تهدف إلى تحديد جميع الكيانات المتداخلة من تمديدات محتملة (I.E.، واحد أو أكثر من الرموز المستمرة). ومع ذلك، فإن الدراسات الحديثة لأي نانر إما التركيز على مخططات العلامات الشاقة أو الاستفا