ترغب بنشر مسار تعليمي؟ اضغط هنا

شبكة الاهتمام التفاعلي الفعال لتصنيف المستندات السريرية متعددة الملصقات

Effective Convolutional Attention Network for Multi-label Clinical Document Classification

466   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يمكن أن تكون مشاكل تصنيف المستندات متعددة الملصقات (MLDC) تحديا، خاصة بالنسبة للمستندات الطويلة ذات مجموعة علامات كبيرة وتوزيع ذيل طويل على الملصقات. في هذه الورقة، نقدم شبكة اهتمام نفعية فعالة لمشكلة MLDC مع التركيز على تنبؤ الكود الطبي من الوثائق السريرية. ابتكاراتنا هي ثلاثة أضعاف: (1) نستخدم تشفير عميق يستند إلى الارتفاع مع شبكات الضغط والإثارة والشبكات المتبقية لتجميع المعلومات عبر الوثيقة وتعلم تمثيلات وثيقة ذات مغزى تغطي نطاقات مختلفة من النصوص؛ (2) نستكشف الانتباه متعدد الطبقات ومجموعة إيلاء الاهتمام لاستخراج الميزات الأكثر تفاعيمية من هذه التمثيلات متعددة النطاق؛ (3) نجمع بين خسارة انتروبيا الصليب الثنائية وفقدان البؤري لتحسين الأداء للعلامات النادرة. نحن نركز دراسة تقييمنا على MIMIC-III، مجموعة بيانات واستخدامها على نطاق واسع في المجال الطبي. تتفوق نماذجنا على العمل السابق على الترميز الطبي وتحقيق نتائج جديدة من الفنون الجديدة على مقاييس متعددة. كما نوضح أيضا الطبيعة المستقلة للغة لنهجنا من خلال تطبيقها على مجموعة بيانات غير الإنجليزية. يتفوق النموذج الخاص بنا على أفضل نموذج مسبق ونموذج محول متعدد اللغات من هامش جوهري.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يتم جذب تصنيف المستندات متعددة الملصقات، وربط مثيل مستندات واحدة بمجموعة من الملصقات ذات الصلة، المزيد والمزيد من اهتمام البحوث. استكشاف الأساليب الحالية دمج المعلومات وراء النص، مثل بيانات تعريف الوثيقة أو هيكل الملصقات. ومع ذلك، فإن هذه الأساليب إم ا ببساطة الاستفادة من المعلومات الدلالية من البيانات الوصفية أو توظيف التسلسل الهرمي لملصق الوالدين والطفل المحدد مسبقا، وتجاهل الهياكل الرسومية غير المتجانسة للبيانات الوصفية والملصقات، والتي نعتقد أنها حاسمة لتصنيف مستندات دقيقة متعددة الملصقات. لذلك، في هذه الورقة، نقترح نهجا جديدا في الشبكة العصبية لتصنيف المستندات متعددة الملصقات، حيث يتم بناء الرسوم البيانية غير المتجانسة والتعلم باستخدام محولات الرسم البياني غير المتجانس. أحدهما هو الرسم البياني غير المتجانس في البيانات الأولية، والتي نماذج أنواع مختلفة من البيانات الوصفية وعلاقاتها الطوبولوجية. الآخر هو الرسم البياني الملصق غير المتجانس، الذي تم إنشاؤه بناء على كل من التسلسل الهرمي للملصقات والتمثيل الإحصائي. النتائج التجريبية على مجموعة من مجموعات البيانات القياسية تظهر النهج المقترح تفوق العديد من خطوط الأساس الحديثة.
ترميز ICD-9 هي مهمة الفواتير السريرية ذات الصلة، حيث يتم تفاحص النصوص غير المنظمة مع معلومات حول تشخيص وعلاجات المريض مع رموز ICD-9 متعددة.الترميز الآلي ICD-9 هو حقل بحث نشط، حيث تمثل الهندسة النموذجية القائم على CNN و RNN النهج الحديثة من بين الفن.ف ي هذا العمل، نقترح تصنيف اهتمام الملصقات القائمة على الوصف لتحسين الشريحة النموذجية عند التعامل مع النصوص الصاخبة مثل الملاحظات السريرية.
نقدم متعدد اليوراء، مجموعة بيانات جديدة متعددة اللغات لتصنيف الموضوع للوثائق القانونية. تضم DataSet قوانين الاتحاد الأوروبي 65 ألف (EU)، والتي ترجمت رسميا في 23 لغة، مشروحا بالملصقات المتعددة من تصنيف Eurovoc. نسلط الضوء على تأثير المنفأة الزمنية الا نجراف وأهمية التسلسل الزمني، بدلا من الانقسامات العشوائية. نستخدم DataSet كاختبار لنقل صفرية عبر اللغات، حيث استغلنا المستندات التدريبية المشروح بلغة واحدة (مصدر) لتصنيف المستندات بلغة أخرى (الهدف). نجد أن ضبط النموذج المحدد المتعدد اللغتين (XLM-Roberta، MT5) في لغة مصدر واحدة يؤدي إلى نسيان كارثي من المعرفة متعددة اللغات، وبالتالي، فإن تحويل صفر ضعيف إلى لغات أخرى. استراتيجيات التكيف، وهي استراتيجيات دقيقة، محولات، معترفيت، LNFIT، اقترحت في الأصل تسريع الضبط الجميل للمهام النهائية الجديدة، والمساعدة في الاحتفاظ بالمعرفة متعددة اللغات من الاحتجاج، وتحسين نقل اللغات الصفر قليلا، ولكن تأثيرها يعتمد أيضا على ذلك على النموذج المحدد مسبقا يستخدم وحجم مجموعة التسمية.
إن السماح للمستخدمين بالتفاعل مع الملخصات المتعددة المستندات هو اتجاه واعد نحو تحسين وتخصيص النتائج الموجزة. تم اقتراح أفكار مختلفة للتلخيص التفاعلي في العمل السابق، لكن هذه الحلول متباينة للغاية ولا تضاهى. في هذه الورقة، نقوم بتطوير إطار تقييم نهاية إلى نهائي للتلخيص التفاعلي، مع التركيز على التفاعل القائم على التوسع، الذي يعتبر تتراكم المعلومات على طول جلسة مستخدم. يتضمن إطار عملنا إجراءات لجمع دورات المستخدم الحقيقية، وكذلك تدابير التقييم التي تعتمد على معايير تلخيص، ولكنها تتكيف مع تعكس التفاعل. جميع حلولنا ومواردنا متوفرة علنا ​​كمعيار، مما يسمح بمقارنة التطورات المستقبلية في تلخيص تفاعلي، وتحفز تقدم في تقييمها المنهجي. نوضح استخدام إطار العمل لدينا من خلال تقييم ومقارنة تطبيقات خط الأساس التي طورنا لهذا الغرض، والتي ستكون بمثابة جزء من معيارنا. تحفيز تجاربنا الواسعة وتحليلنا تصميم إطار التقييم المقترح ودعم صلاحيته.
مع النجاح المبكر لمساعدات الإجابة في الاستعلام مثل Alexa و Siri، فإن محاولات البحث لتوسيع إمكانات النظام من أتمتة خدمة التعامل هي الآن وفيرة. ومع ذلك، فقد عثرت الأنظمة الأولية بسرعة على عدم كفاية في الاعتماد على تقنيات التصنيف البسيطة لتحقيق مهمة الأ تمتة بشكل فعال. التحدي الرئيسي هو أن الحوار يتضمن في كثير من الأحيان التعقيد في نوايا المستخدم (أو أغراض) معتلقها، مع مراعاة التغيير التلقائي، ويصعب تتبعه. علاوة على ذلك، لم تعتبر مجموعات البيانات العامة هذه المضاعفات والشروح الدلالية العامة غير موجودة والتي قد تؤدي إلى مشكلة تسديدة صفرية. بدافع من ما ورد أعلاه، نقترح شبكة انتباه بيرت علم الملصقات (Laban) للكشف عن الصفر طلقة متعددة النوايا. نقوم أولا بتشفير كلمات الإدخال مع بيرت وبناء مساحة مضمنة تسمية من خلال النظر في دلالات مضمنة في ملصقات النوايا. ثم يتم تصنيف كلمة الإدخال بناء على أوزان الإسقاط على كل تضمين نية في هذه المساحة المضمنة. نظهر أنه تمتد بنجاح إلى عدد قليل من الإعدادات / الصفر، حيث يكون جزء من ملصقات النوايا غير مرئية في بيانات التدريب، من خلال مراعاة الدلالات أيضا في هذه الملصقات النية غير المرئية. تظهر النتائج التجريبية أن نهجنا قادر على اكتشاف العديد من الملصقات النية غير المرئية بشكل صحيح. كما أنه يحقق الأداء الحديثة في خمس مجموعات بيانات متعددة النوايا في الحالات العادية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا