الكيانات الطبية الحيوية المسماة معقدة، لذلك تم استخدام مطابقة تقريبية لتحسين تغطية الكيان.ومع ذلك، فإن نهج المطابقة التقريب المعتادة يجلب نتيجة مطابقة واحدة فقط، والتي غالبا ما تكون صاخبة.في هذا العمل، نقترح طريقة لنقل الطبية الحيوية التي يجلب مباريات تقريبية متعددة لجملة معينة للاستفادة من أشكالها لتقدير تشابه الكيان.يستخدم النموذج تجمع لتجاهل المعلومات غير الضرورية من نتائج المطابقة الصاخبة، وتعلم كيان تشابه العبارة مع العديد من المباريات التقريبية.النتائج التجريبية على ثلاثة مجموعات بيانات معطرة من المجال الطبي الطبيعي، BC2GM، مرض NCBI، و BC4Chemd، إظهار الفعالية.يعمل نموذجنا في تحسين المتوسط بنسبة تصل إلى +0.21 نقطة مقارنة مع NER القائم على BIOBERT.
Biomedical Named Entities are complex, so approximate matching has been used to improve entity coverage. However, the usual approximate matching approach fetches only one matching result, which is often noisy. In this work, we propose a method for biomedical NER that fetches multiple approximate matches for a given phrase to leverage their variations to estimate entity-likeness. The model uses pooling to discard the unnecessary information from the noisy matching results, and learn the entity-likeness of the phrase with multiple approximate matches. Experimental results on three benchmark datasets from the biomedical domain, BC2GM, NCBI-disease, and BC4CHEMD, demonstrate the effectiveness. Our model improves the average by up to +0.21 points compared to a BioBERT-based NER.
المراجع المستخدمة
https://aclanthology.org/
هناك اهتمام متزايد بالتعلم المستمر (CL)، حيث أصبحت خصوصية البيانات أولوية للتطبيقات الحقيقية لتعلم الآلة في العالم.وفي الوقت نفسه، لا يزال هناك نقص في معايير NLP الأكاديمية التي تنطبق على إعدادات CL واقعية، وهي تحدي كبير للنهوض بالمجال.في هذه الورقة،
أظهرت الدراسات الحديثة في التعلم العميق تقدما كبيرا في التعرف على الكيان المسمى (NER).ومع ذلك، تفترض أن معظم الأعمال الموجودة تفرض شرحا نظيفا للبيانات، في حين أن سيناريوهات العالم الواقعي تشتمل عادة على كمية كبيرة من الضوضاء من مجموعة متنوعة من المصا
تتحمل أنظمة Training NLP عادة إمكانية الوصول إلى البيانات المشروحة التي تحتوي على ملصق بشري واحد لكل مثال. بالنظر إلى وضع علامات غير كاملة من الحنجرة والغموض الملازمين من اللغة، فإننا نفترض أن العلامة الفردية ليست كافية لتعلم مجموعة تفسير اللغة. نستك
ركز العمل السابق على ربط الكيان على الموارد المستهدفة التي يذكر الكيان المسمى غير المتداخلة غير المتداخلة، وغالبا ما تكون في بيانات من ويكيبيديا، أي Wikification.في هذه الورقة، نقدم وتقييم Wikigum، ومجموعة بيانات مميزة بالكامل، والتي تغطي جميع الإشرا
إن كيان مشترك واستخراج العلاقات يمثل تحديا بسبب التفاعل المعقد للتفاعل بين التعرف على الكيان المسمى واستخراج العلاقة. على الرغم من أن معظم الأعمال القائمة تميل إلى تدريب هذه المهامتين المشتركين من خلال شبكة مشتركة، إلا أنها تفشل في الاستفادة الكاملة