ترغب بنشر مسار تعليمي؟ اضغط هنا

تطبيق طرق التعلم العميق للترميز CT SNOMED من النصوص السريرية: من مجموعة البيانات إلى تصنيف النص المتطرف متعدد الملصقات

Application of Deep Learning Methods to SNOMED CT Encoding of Clinical Texts: From Data Collection to Extreme Multi-Label Text-Based Classification

234   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يعد تطبيع المفهوم للنصوص السريرية للتصنيفات الطبية القياسية والاتجاهات مهمة ذات أهمية عالية للبحث الطبي للرعاية الصحية. نحاول حل هذه المشكلة من خلال ترميز CT التلقائي CT، حيث يعد CT Snomed CT أحد أونولوجيات المصطلحات السريرية الأكثر استخداما وشاملة على نطاق واسع. ومع ذلك، فإن تطبيق نماذج التعلم العميق الأساسية يؤدي إلى نتائج غير مرغوب فيها بسبب الطبيعة غير المتوازنة للبيانات والعدد المتطرف من الفصول الدراسية. نقترح إجراء التصنيف الذي يحتوي على سير عمل متعدد الخطوات يتكون من تجميع الملصقات، والتصنيف متعدد الكتلة، ورسم الخرائط عن المجموعات إلى الملصقات. بالنسبة للتصنيف متعدد المجموعات، BioBert يتم ضبطه بشكل جيد على مجموعة بياناتنا المخصصة. يتم إجراء تعيين مجموعات إلى التسميات من قبل A One-VS-All Mederifier (SVC) المطبق على كل كتلة واحدة. نقدم أيضا خطوات لتوليد البيانات التلقائي من الأوصاف النصية المشروحة مع رموز CT Conomed بناء على البيانات العامة والبيانات المفتوحة المرتبطة. من أجل التعامل مع المشكلة أن DataSet لدينا غير متوازنة للغاية، يتم تطبيق بعض طرق تكبير البيانات. تظهر النتائج من التجارب التي أجريت دقة عالية وموثوقية نهجنا للتنبؤ برموز CT Conomed ذات الصلة بنص سريري.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن نعتبر التمثيل الهرمي للوثائق كرسوم بيانية واستخدام التعلم العميق الهندسي لتصنيفها إلى فئات مختلفة.في حين أن الشبكات العصبية الرسم البيانية يمكن أن تتعامل مع الهيكل المتغير بشكل فعال للمستندات التسلسل الهرمية باستخدام عمليات تمرير رسالة ثابتة للصب غ، فإننا نوضح أنه يمكننا الحصول على تحسينات إضافية على الأداء باستخدام عملية تجمع الرسوم البيانية الانتقائية المقترحة التي تنشأ من حقيقة أن بعض أجزاء التسلسل الهرمي ثابتةعبر وثائق مختلفة.طبقنا نموذجنا لتصنيف بروتوكولات التجريبية السريري (CT) إلى فئات كاملة وإنهاءها.نستخدم حقيبة من الكلمات القائمة على الأكياس، بالإضافة إلى تضيير مقرها المحولات مسبقا لفصل العقد الرسم البياني، وتحقيق F1 Squareesaround 0.85 على سجل CT واسع النطاق للجمهور حول بروتوكولات 360k.نوضح كذلك كيف يمكن للتجمع الانتقائي إضافة رؤى في التنبؤ بحالة إنهاء CT.نحن نجعل التعليمات البرمجية المصدرية والشقاقات DataSet يمكن الوصول إليها.
يتعامل تصنيف النص المتعدد التسميات الهرمية (HMTC) مع المهمة الصعبة التي يمكن فيها تعيين مثيل للفئات المهيكية المتعددة في نفس الوقت. غالبية الدراسات السابقة إما أن تركز على تقليل مهمة HMTC إلى مشكلة مسطحة متعددة العلامات تتجاهل علاقات الفئات الرأسية أ و استغلال التبعيات عبر مستويات هرمية مختلفة دون النظر في الارتباط الأفقي بين الفئات في نفس المستوى، والتي تؤدي حتما إلى المعلومات الأساسية خسارة. في هذه الورقة، نقترح إطار رواية HMTC يرى الارتباطات الفئة الرأسية والأفقية. على وجه التحديد، نقوم أولا بتصميم شبكة عصبية متقطعة متوترة فضفاضة كمستغل في التمثيل للحصول على تمثيلات للكلمات والوثائق، والأهم من ذلك، والأهم من ذلك، والتعويضات الحكيمة للمستوى بالنسبة للفئات، والتي لا تعتبر في الأعمال السابقة. بعد ذلك، يتم اعتماد تمثيلات الفئة المستفادة لالتقاط التبعيات الرأسي بين مستويات التسلسل الهرمي للفئة ونموذج الارتباط الأفقي. أخيرا، استنادا إلى Admeddings و Emgeddings، نقوم بتصميم خوارزمية هجينة للتنبؤ بفئات الهيكل الهرمي بأكمله. تجارب واسعة أجريت على مجموعات بيانات HMTC العالمية الحقيقية صحة فعالية الإطار المقترح بدعوات كبيرة على خط الأساس.
نظرا للتدريب الفعال من خلال التدريب والطلاقة في النصوص المتولدة، يتم اقتراح العديد من النماذج القائمة على إطار ترميز وحدة فك الترميز في مؤخرا للأجيال إلى نص البيانات. الترميز المناسب لبيانات الإدخال هو جزء أساسي من نماذج وحدة فك التشفير هذه. ومع ذلك، ركزت فقط عدد قليل من الأعمال البحثية على أساليب الترميز السليم. تعرض هذه الورقة نموذجا جديدا لتنسيق البيانات إلى ترميز ترميز الترميز، حيث يرميز التشفير المقترح بعناية بيانات الإدخال وفقا للهيكل الأساسي للبيانات. يتم تقييم فعالية التشفير المقترح على حد سواء على حد سواء على حد سواء من خلال بيانات الإدخال خارج نطاق البيانات دون تغيير معنى تلك البيانات. لاختيار معلومات المحتوى المناسبة في البيانات المشفرة من التشفير، يشتمل النموذج المقترح على بوابات الاهتمام في وحدة فك الترميز. مع تجارب واسعة على DataSet Wikibio و E2E، نوضح أن النموذج لدينا يفوق على أحدث النماذج والعديد من أنظمة خط الأساس القياسية. تحليل النموذج من خلال اختبارات الأزمة المكونة والتقييم البشري يؤيد النموذج المقترح كنظام مؤلف جيدا.
أصبحت تسليلات التسلسل الهرمي لاستغلال التسمية نهجا واعدا لمعالجة مشكلة تصنيف النص متعدد الملصقات الصفرية (ZS-MTC). تهدف الأساليب التقليدية إلى تعلم نموذج مطابق بين النص والملصقات، باستخدام تشفير رسم بياني لإدراج التسلسلات الهرمية التسمية للحصول على ت مثيلات تسمية فعالة (Rios and Kavuluru، 2018). في الآونة الأخيرة، تم استخدام نماذج مسبقا مثل Bert (Devlin et al.، 2018) لتحويل مهام التصنيف إلى مهمة استقامة نصية (يين وآخرون، 2019). هذا النهج مناسب بشكل طبيعي لمهمة ZS-MTC. ومع ذلك، فإن النماذج المحددة المسبقة هي غير مقصودة في العمل الحالي لأنها لا تولد تمثيلات ناقلات فردية للنصوص أو الملصقات، مما يجعلها بلا معنى الجمع بين أساليب ترميز الرسم البياني التقليدي. في هذه الورقة، نستكشف لتحسين النماذج المحددة مع التسلسلات الهرمية التسمية في مهمة ZS-MTC. نقترح نهج تسلسل التسلسل الهرمي العلوي (RLHR) لتشجيع الترابط بين الملصقات في التسلسلات الهرمية أثناء التدريب. وفي الوقت نفسه، للتغلب على ضعف التوقعات المسطحة، نقوم بتصميم خوارزمية Rollback التي يمكنها إزالة الأخطاء المنطقية من التنبؤات أثناء الاستدلال. تظهر النتائج التجريبية على ثلاث مجموعات بيانات حقيقية على أن نهجنا يحقق أداء أفضل وتتفوق على الأساليب السابقة غير مسبوقة في مهمة ZS-MTC.
نستخدم شبكات انتباه Hypergraph (Hypergat) للتعرف على ملصقات متعددة من النصوص الصينية الفكاهة.نحن أولا تمثل مزحة كملفوق.يتم استخدام هياكل Hyperedge المتسلسلة واللالسة الدلالية لبناء Hyperedges.ثم، يتم اعتماد آليات الاهتمام لمعلومات السياق التجميعية ال مضمنة في العقد والمواد التوظيف.أخيرا، نستخدم Hypergat المدربين لإكمال مهمة تصنيف العلامات المتعددة.أظهرت النتائج التجريبية على مجموعة بيانات الفكاهة الصينية متعددة التسمية أن نموذج Hypergat يتفوق على النماذج السابقة على التسلسل السابق (CNN، Bilstm، FastText) ورسم الرسم البياني (Graph-CNN، TextGcn، GNN Level Student).

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا