ترغب بنشر مسار تعليمي؟ اضغط هنا

دمج معرفة المجال إلى محولات اللغة للحصول على تصنيف متعدد التسميات للأسئلة الطبية الصينية

Incorporating Domain Knowledge into Language Transformers for Multi-Label Classification of Chinese Medical Questions

369   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقترح آلية تسريب المعرفة لإدماج معرف المجال إلى محولات اللغة. يعتبر البيانات الخاضعة للإشراف ضعيفا كمصدر رئيسي للاستحواذ على المعرفة. نحن ندرب نماذج اللغة مسبقا لالتقاط المعرفة الملثمين بالتركيز والجوانب ثم قم بضبطها للحصول على أداء أفضل على مهام المصب. نظرا لعدم وجود مجموعات بيانات متوفرة للجمهور لتصنيف متعدد التسميات للأسئلة الطبية الصينية، زحفنا أسئلة من منتديات السؤال الطبي / الإجابة وشرحتها يدويا باستخدام ثمانية فصول محددة مسبقا: الأشخاص والمنظمات، والأعراض، والسبب، والفحص والمرض، والمعلومات، المكون، والعلاج. أخيرا، ما مجموعه 1814 سؤالا مع 2،340 ملميا. يحتوي كل سؤال على متوسط ​​1.29 ملصقات. استخدمنا موسوعة بايدو الطبية كمورد المعرفة. تم تنفيذ برت محولين وروبرتا لمقارنة الأداء على مجموعات بياناتنا المبنية. أظهرت النتائج التجريبية أن نموذجنا المقترح مع آلية ضخ المعرفة يمكن أن يحقق أداء أفضل، بغض النظر عن متري التقييم بما في ذلك ماكرو F1 أو مايكرو F1 أو الدقة المزدوجة الواردة في الدقة الفرعية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في السنوات الأخيرة، أثبتت نماذج اللغة المدربة مسبقا (PLM) مثل بيرت فعالة للغاية في مهام NLP المتنوعة مثل استخراج المعلومات وتحليل المعنويات والرد على الأسئلة.تدربت مع نص المجال العام الضخم، هذه النماذج اللغوية المدربة مسبقا تلتقط معلومات النحوية والد لية والجلطة الغنية في النص.ومع ذلك، نظرا للاختلافات بين نص مجال عام ومحدد (E.G.، Wikipedia مقابل ملاحظات عيادة)، قد لا تكون هذه النماذج مثالية للمهام الخاصة بالمجال (على سبيل المثال، استخراج العلاقات السريرية).علاوة على ذلك، قد يتطلب الأمر معرفة طبية إضافية لفهم النص السريري بشكل صحيح.لحل هذه القضايا، في هذا البحث، نقوم بإجراء فحص شامل للتقنيات المختلفة لإضافة المعرفة الطبية إلى نموذج برت مدرب مسبقا لاستخراج العلاقات السريرية.تتفوق أفضل طرازنا على مجموعة بيانات استخراج الحالة الإكلينيكية من أحدث طراز I2B2 / VA 2010.
نستخدم شبكات انتباه Hypergraph (Hypergat) للتعرف على ملصقات متعددة من النصوص الصينية الفكاهة.نحن أولا تمثل مزحة كملفوق.يتم استخدام هياكل Hyperedge المتسلسلة واللالسة الدلالية لبناء Hyperedges.ثم، يتم اعتماد آليات الاهتمام لمعلومات السياق التجميعية ال مضمنة في العقد والمواد التوظيف.أخيرا، نستخدم Hypergat المدربين لإكمال مهمة تصنيف العلامات المتعددة.أظهرت النتائج التجريبية على مجموعة بيانات الفكاهة الصينية متعددة التسمية أن نموذج Hypergat يتفوق على النماذج السابقة على التسلسل السابق (CNN، Bilstm، FastText) ورسم الرسم البياني (Graph-CNN، TextGcn، GNN Level Student).
التصنيف الدولي للأمراض (ICD) هو نظام لتسجيل تشخيصات المرضى بشكل منهجي. تخصص الأطباء أو المبرمون المحترفون رموز ICD للسجلات الطبية للمرضى لتسهيل التمويل والبحث والإدارة. في معظم المرافق الصحية، الترميز السريرية هي مهمة يدوية مطالبة الوقت غير عرضة للأخ طاء. أداة تقوم تلقائيا بتعيين رموز ICD إلى النص السريري المجاني يمكن أن توفر الوقت وتقليل الترميز الخاطئ. في حين ركزت العديد من الدراسات السابقة على ترميز ICD، فإن البحث عن سجلات المرضى السويدية نادرة. استكشفت هذه الدراسة أساليب مختلفة لزيادة الملاحظات السريرية السويدية برموز ICD. تم مقارنة KB-Bert، نموذج Bert المدرب مسبقا على النص السويدي، مع نماذج التعلم التقليدية التي تدعمها تدعم أجهزة Vector، وأشجار القرار، وتستخدم جيران K-Learpors كأساس. عند النظر في رموز ICD التي تم تجمعها إلى عشرة كتل، كانت KB-Bert متفوقة على النماذج الأساسية، والحصول على F1-Micro من 0.80 وما ماكرو F1 من 0.58. عند النظر في رموز ICD الكاملة البالغ عددها 263، تفوقت KB-Bert على جميع النماذج الأساسية في F1-Micro و F1-Macro من الصفر. أظهرت اختبارات Wilcoxon الموقعة المرتبة أن اختلافات الأداء بين BERT KB-Bert ونماذج الأساس كانت ذات دلالة إحصائية.
في نمو العالم اليوم والتكنولوجيا المتقدمة، تلعب شبكات وسائل التواصل الاجتماعي دورا مهما في التأثير على الأرواح البشرية.الرقابة هي الإطاحة عن الكلام أو ناقل الحركة العام أو التفاصيل الأخرى التي تلعب دورا كبيرا في وسائل التواصل الاجتماعي.قد يتم اعتبار المحتوى ضارا أو حساسا أو غير مريح.السلطات مثل المعاهد والحكومات وغيرها من المنظمات تصرف الرقابة.نفذت هذه الورقة نموذجا يساعد على تصنيف التغريدات الرقابة والكشف عنها كتصنيف ثنائي.تصف الورقة تقديمها إلى مهمة مشتركة للرقابة في ورشة عمل NLP4IF 2021.استخدمنا العديد من النماذج المدربة المستندة إلى المحولات، وتخرج XLNet دقة أفضل بين الجميع.نحن نضقل النموذج للحصول على أداء أفضل وحققت دقة معقولة، وتحسب مقاييس الأداء الأخرى.
ثبت أن دمج المعرفة المعجمية في نماذج التعلم العميق قد تكون فعالة للغاية لمهام وضع التسلسل.ومع ذلك، فإن الأمر السابق يعمل عادة صعوبة في التعامل مع المعجم الديناميكي النطاق الذي يسبب غالبا ضوضاء مطابقة مفرطة ومشاكل التحديثات المتكررة.في هذه الورقة، نقت رح Dylex، ونهج تأريك معجم التوصيل لمهام تسلسل التسلسل القائمة على بيرت.بدلا من الاستفادة من تضمين الكلمات في المعجم في الأساليب التقليدية، فإننا نعتمد تضمين العلامات اللاإرادي للكلمة لتجنب إعادة تدريب التمثيل أثناء تحديث المعجم.علاوة على ذلك، فإننا نوظف طريقة تنظيف المعرفة المعلنة المعجمية الفعالة لإعلام الضوضاء المطابقة.وأخيرا، نقدم آلية الانتباه المعرفة القائم على العقيد الحكيمة لضمان استقرار الإطار المقترح.تجارب تجارب عشرة مجموعات من ثلاث مهام تشير إلى أن الإطار المقترح يحقق سوتا جديدة، حتى مع المعجم على نطاق واسع جدا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا