ترغب بنشر مسار تعليمي؟ اضغط هنا

تصنيف النص الهرمي متعدد الملصقات مع ارتباطات الفئات الأفقية والرأسية

Hierarchical Multi-label Text Classification with Horizontal and Vertical Category Correlations

408   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتعامل تصنيف النص المتعدد التسميات الهرمية (HMTC) مع المهمة الصعبة التي يمكن فيها تعيين مثيل للفئات المهيكية المتعددة في نفس الوقت. غالبية الدراسات السابقة إما أن تركز على تقليل مهمة HMTC إلى مشكلة مسطحة متعددة العلامات تتجاهل علاقات الفئات الرأسية أو استغلال التبعيات عبر مستويات هرمية مختلفة دون النظر في الارتباط الأفقي بين الفئات في نفس المستوى، والتي تؤدي حتما إلى المعلومات الأساسية خسارة. في هذه الورقة، نقترح إطار رواية HMTC يرى الارتباطات الفئة الرأسية والأفقية. على وجه التحديد، نقوم أولا بتصميم شبكة عصبية متقطعة متوترة فضفاضة كمستغل في التمثيل للحصول على تمثيلات للكلمات والوثائق، والأهم من ذلك، والأهم من ذلك، والتعويضات الحكيمة للمستوى بالنسبة للفئات، والتي لا تعتبر في الأعمال السابقة. بعد ذلك، يتم اعتماد تمثيلات الفئة المستفادة لالتقاط التبعيات الرأسي بين مستويات التسلسل الهرمي للفئة ونموذج الارتباط الأفقي. أخيرا، استنادا إلى Admeddings و Emgeddings، نقوم بتصميم خوارزمية هجينة للتنبؤ بفئات الهيكل الهرمي بأكمله. تجارب واسعة أجريت على مجموعات بيانات HMTC العالمية الحقيقية صحة فعالية الإطار المقترح بدعوات كبيرة على خط الأساس.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يتضمن تصنيف النص متعدد العلامات واسعة النطاق (LMTC) مهام مع مسافات تسمية هرمية، مثل التعيين التلقائي لرموز ICD-9 إلى ملخصات التفريغ.يتم تقييم أداء النماذج في الفن السابق مع تدابير الدقة القياسية والتذكر و F1 دون اعتبار للهيكل الهرمي الغني.في هذا العم ل، نقول بتقييم هرمي لتنبؤات نماذج LMTC العصبية.مع مثال على علم ICD-9 ontology، نصف مشكلة هيكلية في تمثيل مساحة الملصقات المهيكلة في الفنية السابقة، واقتراح تمثيل بديل بناء على عمق OnTology.نقترح مجموعة من مقاييس التقييم الهرمي باستخدام التمثيل القائم على العمق.قارن درجات التقييم من المقاييس المقترحة مع مقاييس تستخدم سابقا على نماذج LMTC السابقة لترميز ICD-9 في MIMIC-III.كما نقترح أيضا طرق البحث الأخرى التي تنطوي على التمثيل الترطاني المقترح.
أصبحت تسليلات التسلسل الهرمي لاستغلال التسمية نهجا واعدا لمعالجة مشكلة تصنيف النص متعدد الملصقات الصفرية (ZS-MTC). تهدف الأساليب التقليدية إلى تعلم نموذج مطابق بين النص والملصقات، باستخدام تشفير رسم بياني لإدراج التسلسلات الهرمية التسمية للحصول على ت مثيلات تسمية فعالة (Rios and Kavuluru، 2018). في الآونة الأخيرة، تم استخدام نماذج مسبقا مثل Bert (Devlin et al.، 2018) لتحويل مهام التصنيف إلى مهمة استقامة نصية (يين وآخرون، 2019). هذا النهج مناسب بشكل طبيعي لمهمة ZS-MTC. ومع ذلك، فإن النماذج المحددة المسبقة هي غير مقصودة في العمل الحالي لأنها لا تولد تمثيلات ناقلات فردية للنصوص أو الملصقات، مما يجعلها بلا معنى الجمع بين أساليب ترميز الرسم البياني التقليدي. في هذه الورقة، نستكشف لتحسين النماذج المحددة مع التسلسلات الهرمية التسمية في مهمة ZS-MTC. نقترح نهج تسلسل التسلسل الهرمي العلوي (RLHR) لتشجيع الترابط بين الملصقات في التسلسلات الهرمية أثناء التدريب. وفي الوقت نفسه، للتغلب على ضعف التوقعات المسطحة، نقوم بتصميم خوارزمية Rollback التي يمكنها إزالة الأخطاء المنطقية من التنبؤات أثناء الاستدلال. تظهر النتائج التجريبية على ثلاث مجموعات بيانات حقيقية على أن نهجنا يحقق أداء أفضل وتتفوق على الأساليب السابقة غير مسبوقة في مهمة ZS-MTC.
يعد تطبيع المفهوم للنصوص السريرية للتصنيفات الطبية القياسية والاتجاهات مهمة ذات أهمية عالية للبحث الطبي للرعاية الصحية. نحاول حل هذه المشكلة من خلال ترميز CT التلقائي CT، حيث يعد CT Snomed CT أحد أونولوجيات المصطلحات السريرية الأكثر استخداما وشاملة ع لى نطاق واسع. ومع ذلك، فإن تطبيق نماذج التعلم العميق الأساسية يؤدي إلى نتائج غير مرغوب فيها بسبب الطبيعة غير المتوازنة للبيانات والعدد المتطرف من الفصول الدراسية. نقترح إجراء التصنيف الذي يحتوي على سير عمل متعدد الخطوات يتكون من تجميع الملصقات، والتصنيف متعدد الكتلة، ورسم الخرائط عن المجموعات إلى الملصقات. بالنسبة للتصنيف متعدد المجموعات، BioBert يتم ضبطه بشكل جيد على مجموعة بياناتنا المخصصة. يتم إجراء تعيين مجموعات إلى التسميات من قبل A One-VS-All Mederifier (SVC) المطبق على كل كتلة واحدة. نقدم أيضا خطوات لتوليد البيانات التلقائي من الأوصاف النصية المشروحة مع رموز CT Conomed بناء على البيانات العامة والبيانات المفتوحة المرتبطة. من أجل التعامل مع المشكلة أن DataSet لدينا غير متوازنة للغاية، يتم تطبيق بعض طرق تكبير البيانات. تظهر النتائج من التجارب التي أجريت دقة عالية وموثوقية نهجنا للتنبؤ برموز CT Conomed ذات الصلة بنص سريري.
يتم جذب تصنيف المستندات متعددة الملصقات، وربط مثيل مستندات واحدة بمجموعة من الملصقات ذات الصلة، المزيد والمزيد من اهتمام البحوث. استكشاف الأساليب الحالية دمج المعلومات وراء النص، مثل بيانات تعريف الوثيقة أو هيكل الملصقات. ومع ذلك، فإن هذه الأساليب إم ا ببساطة الاستفادة من المعلومات الدلالية من البيانات الوصفية أو توظيف التسلسل الهرمي لملصق الوالدين والطفل المحدد مسبقا، وتجاهل الهياكل الرسومية غير المتجانسة للبيانات الوصفية والملصقات، والتي نعتقد أنها حاسمة لتصنيف مستندات دقيقة متعددة الملصقات. لذلك، في هذه الورقة، نقترح نهجا جديدا في الشبكة العصبية لتصنيف المستندات متعددة الملصقات، حيث يتم بناء الرسوم البيانية غير المتجانسة والتعلم باستخدام محولات الرسم البياني غير المتجانس. أحدهما هو الرسم البياني غير المتجانس في البيانات الأولية، والتي نماذج أنواع مختلفة من البيانات الوصفية وعلاقاتها الطوبولوجية. الآخر هو الرسم البياني الملصق غير المتجانس، الذي تم إنشاؤه بناء على كل من التسلسل الهرمي للملصقات والتمثيل الإحصائي. النتائج التجريبية على مجموعة من مجموعات البيانات القياسية تظهر النهج المقترح تفوق العديد من خطوط الأساس الحديثة.
نحن نعتبر التمثيل الهرمي للوثائق كرسوم بيانية واستخدام التعلم العميق الهندسي لتصنيفها إلى فئات مختلفة.في حين أن الشبكات العصبية الرسم البيانية يمكن أن تتعامل مع الهيكل المتغير بشكل فعال للمستندات التسلسل الهرمية باستخدام عمليات تمرير رسالة ثابتة للصب غ، فإننا نوضح أنه يمكننا الحصول على تحسينات إضافية على الأداء باستخدام عملية تجمع الرسوم البيانية الانتقائية المقترحة التي تنشأ من حقيقة أن بعض أجزاء التسلسل الهرمي ثابتةعبر وثائق مختلفة.طبقنا نموذجنا لتصنيف بروتوكولات التجريبية السريري (CT) إلى فئات كاملة وإنهاءها.نستخدم حقيبة من الكلمات القائمة على الأكياس، بالإضافة إلى تضيير مقرها المحولات مسبقا لفصل العقد الرسم البياني، وتحقيق F1 Squareesaround 0.85 على سجل CT واسع النطاق للجمهور حول بروتوكولات 360k.نوضح كذلك كيف يمكن للتجمع الانتقائي إضافة رؤى في التنبؤ بحالة إنهاء CT.نحن نجعل التعليمات البرمجية المصدرية والشقاقات DataSet يمكن الوصول إليها.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا