تشكل الكيانات المتساقطة تحديا للتعرف على الكيان المسمى (NER). تحدث هذه الظواهر عادة في المجال الطبي الطبيعي. كحل، يتم استخدام توسعات مخطط التمثيل الحيوي الذي يمكنه التعامل مع أنواع هذه أنواع الكيان بشكل شائع (I.E. BIOHD). ومع ذلك، فإن أنواع العلامات الإضافية تجعل مهمة NER أكثر صعوبة في التعلم. في هذه الورقة نقترحنا بديلا؛ مخطط حيوي مستمر غامض (Fuzzybio). نحن نركز على مهمة استخراج استجابة المخدرات الضارة والتطبيع لمقارنة Fuzzybio إلى BIOHD. نجد أن Fuzzybio يحسن استدعاء NER لشخصين من ثلاثة مجموعات بيانات ونتائج أعلى نسبة أعلى من الكيانات المفككة والمركبة المحددة بشكل صحيح لجميع مجموعات البيانات. يؤدي استخدام FuzzyBio أيضا إلى تحسين الأداء المنتهي للكيانات المستمرة والمركبة في مجموعتين من مجموعات البيانات الثلاثة. نظرا لأن Fuzzybio يحسن الأداء لبعض مجموعات البيانات والتحويل من Biohd إلى Fuzzybio واضح، فإننا نوصي بالتحقيق الأكثر فعالية لأي مجموعة بيانات تحتوي على كيانات متقطعة.
Discontinuous entities pose a challenge to named entity recognition (NER). These phenomena occur commonly in the biomedical domain. As a solution, expansions of the BIO representation scheme that can handle these entity types are commonly used (i.e. BIOHD). However, the extra tag types make the NER task more difficult to learn. In this paper we propose an alternative; a fuzzy continuous BIO scheme (FuzzyBIO). We focus on the task of Adverse Drug Response extraction and normalization to compare FuzzyBIO to BIOHD. We find that FuzzyBIO improves recall of NER for two of three data sets and results in a higher percentage of correctly identified disjoint and composite entities for all data sets. Using FuzzyBIO also improves end-to-end performance for continuous and composite entities in two of three data sets. Since FuzzyBIO improves performance for some data sets and the conversion from BIOHD to FuzzyBIO is straightforward, we recommend investigating which is more effective for any data set containing discontinuous entities.
المراجع المستخدمة
https://aclanthology.org/
مجردة التعرف على الكيانات المسماة (NER) هي مهمة NLP الأساسية، والتي صاغها عادة كتصنيف على سلسلة من الرموز. تشكل اللغات الغنية المورفولوجية (MRLS) تحديا لهذه الصياغة الأساسية، حيث لا تتزامن حدود الكيانات المسماة بالضرورة مع حدود الرمز المميز، بل يحترم
الشبكات العصبية هي طريقة أحدثت لآلة التعلم للعديد من المشاكل في NLP.نجاحهم في الترجمة الآلية ومهام NLP الأخرى هي ظاهرة، لكن قابلية الترجمة الشفوية تحديا.نريد معرفة كيف تمثل الشبكات العصبية معنى.من أجل القيام بذلك، نقترح فحص توزيع المعنى في تمثيل المس
تحليل المدونات الصغيرة حيث ننشر ما نقوم بتمكيننا من أداء تطبيقات مختلفة مثل تحليل الاتجاه الاجتماعي وتوصية الكيان. لتتبع الاتجاهات الناشئة في مجموعة متنوعة من المجالات، نريد تصنيف المعلومات عن الكيانات الناشئة (على سبيل المثال، الصورة الرمزية 2) في م
مجردة ⚠ تحتوي هذه الورقة على مطالبات ونواتج النماذج المسيئة في الطبيعة. عند التدريب على الزحف الكبيرة وغير المرفقة من الإنترنت، تلتقط نماذج اللغة وإعادة إنتاج جميع أنواع التحيزات غير المرغوب فيها التي يمكن العثور عليها في البيانات: أنها غالبا ما تولد
تهدف الملخصات الزمنية (TLS) إلى توليد قائمة موجزة من الأحداث الموضحة في مصادر مثل المقالات الإخبارية.ومع ذلك، فإن النظم الحالية لا توفر طريقة كافية للتكيف مع مجالات جديدة ولا تركز على جوانب الاهتمام لمستخدم معين.لذلك، نقترح طريقة للتعلم بشكل تفاعلي T