ترغب بنشر مسار تعليمي؟ اضغط هنا

التحليل المقارن لنماذج لغة التعلم العميقة التي تم ضبطها بشكل جيد لمهمة تصنيف ICD-10 للغة البلغارية

Comparative Analysis of Fine-tuned Deep Learning Language Models for ICD-10 Classification Task for Bulgarian Language

306   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إن مهمة التشخيص التلقائي تشفيرها في التصنيفات الطبية القياسية والاتحاد، لها أهمية كبيرة في الطب - كلاهما لدعم المهام اليومية للأطباء في إعداد الوثائق السريرية والإبلاغ عن التقارير السريرية. في هذه الورقة، نحقق في تطبيق وأداء محولات التعلم العميق المختلفة للترميز التلقائي في ICD-10 من النصوص السريرية في البلغارية. يحاول التحليل المقارن العثور على النهج الذي هو أكثر كفاءة لاستخدامه في ضبط محول الأسرة برت المحدود إلى التعامل مع مصطلحات مجال معين على لغة نادرة مثل البلغارية. على جانب واحد، تستخدم سلافيكبرت و Multirigualbert، والتي يتم الاحترام من أجل المفردات الشائعة في البلغارية، ولكن تفتقر إلى المصطلحات الطبية. من ناحية أخرى، يتم استخدام BioBert، Clinicalbert، Sapbert، Bluebert، والتي يتم الاحتراج بها للمصطلحات الطبية باللغة الإنجليزية، ولكنها تفتقر إلى التدريب لنماذج اللغة باللغة البلغارية، وأكثر من اللازم للمفردات في السيريلية. في دراسة الأبحاث الخاصة بنا، يتم ضبط جميع نماذج Bert بشكل جيد مع نصوص طبية إضافية في البلغارية ثم تطبق على مهمة التصنيف لترميز التشخيصات الطبية في البلغارية في رموز ICD-10. يستخدم Big Corpora للتشخيص في البلغاري المشروح مع رموز ICD-10 لمهمة التصنيف. يمنح مثل هذا التحليل فكرة جيدة عن النماذج مناسبة لمهام نوع مماثل ومجال. تظهر نتائج التجارب والتقييم أن كلا النهجتين لها دقة مماثلة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة تقديمنا إلى مهمة Semeval-2021 1: التنبؤ بدرجة التعقيد لكلمات واحدة.النموذج لدينا يهدف إلى ارتفاع الميزات المورفوسنكتاكيتش والمترددات المستندة إلى التردد التي أثبتت أنها مفيدة لتحديد الكلمات المعقدة (مهمة ذات صلة)، وتجمع بينها مع تنبؤات مصنوعة من النماذج المدربة المستندة إلى المحولات التي تم ضبطها بشكل جيد على بيانات المهام المشتركة.تداولات نظام التقديم لدينا جميع النماذج السابقة مع LightgBM في الأعلى.يتمثل أحد الجدة في نهجنا في استخدام التعلم متعدد المهام لضبط النموذج المدرب مسبقا لكلا التنبؤ في التعقيد المعجمي و disambiguation معنى الكلمة.يوضح تحليلنا أن جميع النماذج المستقلة تحقق أداء جيدا في المهمة، ولكن أن تكديسها يحصل على علاقة بيرسون ب 0.7704، فقط 0.018 نقطة خلف التقديم الفائز.
التصنيف الدولي للأمراض (ICD) هو نظام لتسجيل تشخيصات المرضى بشكل منهجي. تخصص الأطباء أو المبرمون المحترفون رموز ICD للسجلات الطبية للمرضى لتسهيل التمويل والبحث والإدارة. في معظم المرافق الصحية، الترميز السريرية هي مهمة يدوية مطالبة الوقت غير عرضة للأخ طاء. أداة تقوم تلقائيا بتعيين رموز ICD إلى النص السريري المجاني يمكن أن توفر الوقت وتقليل الترميز الخاطئ. في حين ركزت العديد من الدراسات السابقة على ترميز ICD، فإن البحث عن سجلات المرضى السويدية نادرة. استكشفت هذه الدراسة أساليب مختلفة لزيادة الملاحظات السريرية السويدية برموز ICD. تم مقارنة KB-Bert، نموذج Bert المدرب مسبقا على النص السويدي، مع نماذج التعلم التقليدية التي تدعمها تدعم أجهزة Vector، وأشجار القرار، وتستخدم جيران K-Learpors كأساس. عند النظر في رموز ICD التي تم تجمعها إلى عشرة كتل، كانت KB-Bert متفوقة على النماذج الأساسية، والحصول على F1-Micro من 0.80 وما ماكرو F1 من 0.58. عند النظر في رموز ICD الكاملة البالغ عددها 263، تفوقت KB-Bert على جميع النماذج الأساسية في F1-Micro و F1-Macro من الصفر. أظهرت اختبارات Wilcoxon الموقعة المرتبة أن اختلافات الأداء بين BERT KB-Bert ونماذج الأساس كانت ذات دلالة إحصائية.
استخدام البيانات من اختبارات المرنة الإنجليزية، والتي أبلغت فيها المواضيع ذاتها الذاتي عن جنسهن وعمرها والتعليم والعرق، ندرس اختلافات الأداء في نماذج اللغة المحددة مسبقا عبر المجموعات الديموغرافية، والتي تحددها هذه الصفات (المحمية).نوضح ثغرات أداء وا سعة عبر الفئات الديموغرافية وإظهار أن نماذج اللغة المسبقة مسبقا تكافح المتحدثين ذكور الشباب غير الأبيض؛على سبيل المثال، لا تعلم نماذج اللغة المحددة مسبقا تعلم التحيزات الاجتماعية (الجمعيات النمطية) - تعلم النماذج اللغوية المحددة أيضا التحيزات الاجتماعية، وتعلم التحدث أكثر شيئين أكثر من مثل الآخرين.ومع ذلك، نوضح أنه، باستثناء نماذج بيرت، تخفض نماذج اللغة الأكبر المحددة مسبقا بعض فجوات الأداء بين الأغلبية والأقليات.
تركز أساليب تصنيف النص الحالية أساسا على مجموعة تسمية ثابتة، في حين أن العديد من التطبيقات في العالم الحقيقي تتطلب تمديد فئات جديدة من الرباعي حيث يزيد عدد العينات لكل علامة. لاستيعاب هذه المتطلبات، نقدم مشكلة جديدة تسمى تصنيف الحبيبات الخشنة إلى الد قيقة، والتي تهدف إلى أداء تصنيف جيد الحبيبات على البيانات المشروحة بشكل خشن. بدلا من طلب التعليقات التوضيحية البشرية المحبوبة الجديدة، فإننا نقوم باختيار الاستفادة من أسماء السطح التسمية باعتبارها الإرشادات البشرية الوحيدة والنسج في نماذج لغوية غنية مدربة مسبقا في استراتيجية الإشراف الضعيفة المتكررة. على وجه التحديد، نقترح أولا صياغة صياغة دقيقة مشروطة على التسمية لتحريك هذه المولدات لمهمتنا. علاوة على ذلك، نركض هدف تنظيمي بناء على قيود العلامات الجميلة الخشنة المستمدة من إعداد مشكلتنا، مما يتيح لنا المزيد من التحسينات على الصيغة السابقة. يستخدم إطار عملنا النماذج الإدارية التي تم ضبطها بشكل جيد لعينة بيانات التدريب الزائفة لتدريب المصنف، و BootStraps على البيانات الحقيقية غير المسبقة لتحسين النموذج. تجارب واسعة دراسات حالة عن مجموعات بيانات عالمية في العالم الحقيقي تثبت أداء فائقا فوق خطوط خطوط تصنيف Sota-Shot-Shot.
حققت خوارزمية التعلم العميق مؤخرًا الكثير من النجاح خاصة في مجال رؤية الكمبيوتر.يهدف البحث الحالي إلى وصف طريقة التصنيف المطبقة على مجموعة البيانات الخاصة بأنواع متعددة من الصور (صور الرادار ذي الفجوة المركبةSAR والصور ليست SAR) ، أستخدم نقل التعلم م تبوعًا بأساليب الضبط الدقيق في مخطط التصنيف هذا . تم استخدام بنيات مدربة مسبقًا على قاعدة بيانات الصور المعروفهImageNet، تم استخدام نموذج VGG 16 بالفعل كمستخرج ميزات وتم تدريب مصنف جديد بناءً على الميزات المستخرجة .تركز بيانات الإدخال بشكل أساسي على مجموعة البيانات التي تتكون من خمس فئات فئة صور الرادارSAR (المنازل) وفئات الصور ليستSAR (القطط والكلاب والخيول والبشر). تم اختيار الشبكة العصبية التلافيفية (CNN) كخيار أفضل لـعملية التدريب لانها نتجت عن دقة عالية. لقد وصلنا إلى الدقة النهائية بنسبة 91.18٪ في خمس فئات مختلفة. تتم مناقشة النتائج من حيث احتمالية الدقة لكل فئة في تصنيف الصورة بالنسبة المئوية. تحصل فئة القطط على 99.6٪ ، بينما تحصل فئة المنازل على 100٪ وتحصل انواع آخرى من الفئات بمتوسط درجات 90٪ وما فوق.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا