ترغب بنشر مسار تعليمي؟ اضغط هنا

تكامل البيانات عبر المجال ل Disambiguation الكيان المسمى في النص الطبي الطبيعي

Cross-Domain Data Integration for Named Entity Disambiguation in Biomedical Text

590   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إن إزالة الكيانات المسماة (NED)، والتي تنطوي على رسم الخرائط النصية للكيانات الهيكلية، تحديا بشكل خاص في المجال الطبي بسبب وجود كيانات نادرة.تقتصر الأساليب الحالية بوجود الموارد الهيكلية الخشونة في قواعد المعرفة الطبية الحيوية وكذلك استخدام مجموعات البيانات التدريبية التي توفر تغطية منخفضة على الموارد غير الشائعة.في هذا العمل، نتعلم هذه المشكلات من خلال اقتراح طريقة تكامل بيانات عبر المجال التي تنقل المعرفة الهيكلية من قاعدة معارف النص العامة إلى المجال الطبي.نحن نستخدم مخطط الاندماج لدينا لزيادة الموارد الهيكلية وتوليد مجموعة بيانات كبيرة بييوميديا للأحاد المحاكمة.يحقق نموذج عائليتنا مع المعرفة الهيكلية المحقونة أداء حديثة على مجموعة بيانات القياس الطبية القياسية: التوصيلات و BC5CDR.علاوة على ذلك، فإننا نحسن الغموض من كيانات نادرة تصل إلى 57 نقطة دقة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا العمل، نأخذ هذا الاتجاه البحثي إلى المعاكس ودراسة تكبير بيانات المجال عبر المجال لمهمة NER.نحن نبحث في إمكانية الاستفادة من البيانات من مجالات الموارد العالية من خلال إسقاطها في مجالات الموارد المنخفضة.على وجه التحديد، نقترح بنية عصبية رواية لتحويل تمثيل البيانات من الموارد العالية إلى مجال موارد منخفضة من خلال تعلم الأنماط (مثل الأناقة والضوضاء والاختصارات، وما إلى ذلك) في النص الذي يميزها ومساحة ميزة مشتركةحيث يتماشى كلا المجالين.نقوم بتجربة مجموعات بيانات متنوعة وإظهار أن تحويل البيانات إلى تمثيل مجال الموارد المنخفض يحقق تحسينات كبيرة على استخدام البيانات فقط من مجالات الموارد العالية.
يعرف تطبيق المتخصص في مجال التعرف على الكيان المسمى (ner) باسم الطيوميدي (Bioner)، الذي يهدف إلى تحديد وتصنيف المفاهيم الطبية الحيوية التي تهم الباحثين، مثل الجينات والبروتينات والمركبات الكيميائية والمخدرات والطفرات والأمراض ، وما إلى ذلك وهلم جرا. تشبه المهمة Bioner إلى حد كبير عام NER ولكن الاعتراف بالكيانات الطبية الحيوية المسماة (BNES) أكثر تحديا من الاعتراف بالأسماء المناسبة من الصحف بسبب خصائص التسميات الطبية الحيوية. من أجل معالجة التحديات التي تطرحها Bioner، تم تنفيذ سبع نماذج تعليمية في سبع آلات مقارنة نهج تعلم النقل بناء على برت ضبط صقل مع النماذج العصبية التي تعتمد عليها BI-LSTM وطراز CRF يستخدم كناسما أساسيا. تم استخدام الدقة والتذكر و F1-Score نظرا لأن درجات الأداء التي تقوم بتقييم النماذج على اثنين من الأطباق الطبية الحيوية المعروفة: Jnlpba و Biocreative IV (BC-IV). تعتبر مطابقة صارمة جزئية معايير تقييم. تشير النتائج المبلغ عنها إلى أن نهج التعلم عبر النقل يعتمد على بيرت المصنفات التي تم ضبطها تتفوق جميع أساليب الآخرين على تحقيق أعلى درجات لجميع المقاييس على كلا الشريعة.
وقد ثبت أن التعرف على الكيان المسمى (NER) قد يستفيد من دمج المعلومات المهيكلة لمسافات طويلة التي تم التقاطها بواسطة أشجار التبعية. نعتقد أن هذا هو أن كلا النوعين من الميزات - المعلومات السياقية التي تم التقاطها من خلال التسلسلات الخطية والمعلومات الم هيكلة التي تم الاستيلاء عليها أشجار التبعية قد تكمل بعضها البعض. ومع ذلك، تركز النهج الحالية إلى حد كبير على تكديس الشبكات العصبية LSTM والرسم البيانية مثل الشبكات التنافسية الرسم البيانية (GCNS) لبناء نماذج NER محسنة، حيث لا تكون آلية التفاعل الدقيقة بين النوعين من الميزات واضحة للغاية، وتكسب الأداء يبدو أن تكون كبيرة. في هذا العمل، نقترح حلا بسيطا وقويا لدمج كلا النوعين من الميزات مع تآزرنا - LSTM (SYN-LSTM)، والذي يلتقط بوضوح كيف يتفاعل نوعان الميزات. نقوم بإجراء تجارب مكثفة على العديد من البيانات القياسية عبر أربع لغات. تظهر النتائج أن النموذج المقترح يحقق أداء أفضل من الأساليب السابقة مع مطالبة معلمات أقل. يوضح تحليلنا الإضافي أن نموذجنا يمكنه التقاط تبعيات أطول مقارنة مع خطوط الأساس القوية.
ينقل التعرف على الكيان المسمى عبر المجال (NER) المعرفة NER من مجالات الموارد العالية إلى المجال المستهدف منخفض الموارد. نظرا للموارد المحدودة المسمى وانعكاف المجال، تعد Nor Cross-Domain مهمة صعبة. لمعالجة هذه التحديات، نقترح نهج تقطير المعرفة في مجال التكيف في مجال التدريجي - PDALN. أنه يحقق إمكانية التكيف المجال المتفوق من خلال توظيف ثلاثة مكونات: (1) تقنيات تكبير البيانات التكيفية، والتي تخفف فجوة عبر المجال وتسمية مضيفية في وقت واحد؛ (2) ميزات ثابتة نطاق المجال متعدد المستويات، مشتقة من نهج MMD متعدد الحبيبات (الحد الأقصى للتناقض المتوسط)، لتمكين نقل المعرفة عبر المجالات؛ (3) مخطط KD المتقدمة، والذي يتيح تدريجيا نماذج اللغة المدربة مسبقا مسبقا لأداء تكيف المجال. تشير تجارب واسعة على أربعة معايير إلى أن PDALN يمكن أن تتكيف بشكل فعال مجالات الموارد العالية إلى المجالات المستهدفة من الموارد المنخفضة، حتى لو كانت متنوعة من حيث الأنماط والكتابة. تشير المقارنة مع خطوط الأساس الأخرى إلى أداء الدولة الواحد لدليلن.
يعد التعرف على الكيان المسمى مهمة أساسية في معالجة اللغة الطبيعية للكشف عن الكيانات وتصنيفها إلى فئات محددة سلفا. كيان هو كلمة ذات معنى، أو عبارة تشير إلى الأسماء المناسبة. تلعب الكيانات المسماة دورا مهما في مهام NLP المختلفة مثل استخراج المعلومات، و الرد على الأسئلة والترجمة الآلية. في الترجمة الآلية، غالبا ما تسبب الكيانات المسماة فشل الترجمة بغض النظر عن السياق المحلي، مما يؤثر على جودة الإخراج للترجمة. التعليق الكيانات المسماة هي عملية تستغرق وقتا طويلا ومكلفة خاصة لغات الموارد المنخفضة. أحد الحلول لهذه المشكلة هو استخدام طرق محاذاة Word في شركة موازية ثنائية اللغة تم تفاحها جانب واحد فقط. الهدف هو استخراج الكيانات المسماة في اللغة المستهدفة باستخدام Corpus المشرف من لغة المصدر. في هذه الورقة، قارنا أداء اثنين من أساليب المحاذاة، واللبسائع التناظرية المتناثرة-Diag-Final-Final وتقاطع التناظر، لاستغلال الإسقاط التوضيحي للبرتغالية البرتغالية الإنجليزية البرازيلية للكشف عن الكيانات المسماة في البرتغالية البرازيلية. يتم استخدام نموذج NER الذي تم تدريبه على البيانات المشروحة المستخرجة من أساليب المحاذاة، لتقييم أداء المحاذاين. تظهر النتائج التجريبية أن التعايدة بين التقاطعات قادرة على تحقيق درجات أداء فائقة مقارنة مع النمو - النهائي والنهائي والمشي في البرتغالية البرازيلية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا