ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين تصنيف النص مواد الرعاية الطويلة الأجل

Improved Text Classification of Long-term Care Materials

168   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

وقد شكلت الشيخوخة السكان تحديا للعديد من البلدان بما في ذلك تايوان، ومعهم يأتون قضية الرعاية الطويلة الأجل.بالنظر إلى السياق الحالي، كان الهدف من هذه الدراسة هو استكشاف الفرعي المناقش أعلاه في مجال الرعاية الطويلة الأجل، وتحديد ميزاته من خلال NLP.تقدمت هذه الدراسة TF-IDF، نموذج الانحدار اللوجستي، ومصنف البايز الساذج لمعالجة البيانات.باختصار، أظهرت النتائج أنها وصلت إلى أفضل درجة F1 من 0.920 في تحديد الهوية، وأفضل دقة 0.708 في التصنيف.يمكن استخدام نتائج هذه الدراسة كمرجع للتطبيقات المتعلقة بالرعاية الطويلة الأجل في المستقبل.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصنيف النص التجريدي هو مشكلة مدروسة على نطاق واسع ولها تطبيقات واسعة. في العديد من مشاكل العالم الحقيقي، يعد عدد النصوص الخاصة بنماذج تصنيف التدريب محدودا، مما يجعل هذه النماذج عرضة للجيش. لمعالجة هذه المشكلة، نقترح SSL-REG، نهج التنظيم المعتمد على ا لبيانات بناء على التعلم الذاتي (SSL). SSL (Devlin et al.، 2019A) هو نهج تعليمي غير محدد يحدد المهام المساعدة على بيانات الإدخال دون استخدام أي ملصقات موجودة بين الإنسان وتعلم تمثيلات البيانات من خلال حل هذه المهام الإضافية. يتم تنفيذ مهمة SSL-REG، وهي مهمة تصنيف إشراف ومهمة SSL غير المدبرة في وقت واحد. المهمة SSL غير مدعومة، والتي يتم تعريفها بحتة على نصوص الإدخال دون استخدام أي ملصقات مقدمة بين الإنسان. يمكن للتدريب على نموذج باستخدام مهمة SSL منع النموذج من محفورا إلى عدد محدود من الملصقات الفئة في مهمة التصنيف. تجارب في 17 مجموعة بيانات تصنيف النص توضح فعالية طريقةنا المقترحة. رمز متاح في https://github.com/ucsd-ai4h/ssreg.
الأساليب القائمة على المحولات جذابة لتصنيف النص متعدد اللغات، ولكن معايير البحوث الشائعة مثل XNLI (Conneau et al.، 2018) لا تعكس توافر البيانات ومجموعة واسعة من تطبيقات الصناعة.نقدم مقارنة تجريبية من نماذج تصنيف النص المستند إلى المحولات في مجموعة مت نوعة من إعدادات الاحتياطية وغير اللغوية المتعددة اللغات والضبط.نقيم هذه الأساليب على مهمتين متميزتين في خمس لغات مختلفة.المغادرة من العمل السابق، تظهر نتائجنا أن نماذج لغة متعددة اللغات يمكن أن تتفوق على تلك المهام المطردة في بعض المهام المصب واللغات المستهدفة.نوضح بالإضافة إلى ذلك أن التعديلات العملية مثل المهام وعمالة العمل التكيفية والتكييف يمكن أن تحسن أداء التصنيف دون الحاجة إلى بيانات إضافية إضافية.
يمكن أن تكشف نمط النص أن يكشف السمات الحساسة للمؤلف (E.G. العمر والسباق) للقارئ، والذي يمكن، بدوره، يؤدي إلى انتهاكات الخصوصية والتحيز في كل من القرارات البشرية والخضارات على أساس النص. على سبيل المثال، قد تكشف أسلوب الكتابة في تطبيقات الوظائف عن سما ت المرشح المحمية التي يمكن أن تؤدي إلى التحيز في اتخاذ القرارات، بغض النظر عما إذا كانت القرارات التوصية مجددا أو من قبل البشر. نقترح إطارا أساسيا يستند إلى VAE يهدف إلى توضيح الملامح الأسلوبية للنص الذي تم إنشاؤه بشريا من خلال نقل النمط، عن طريق إعادة كتابة النص نفسه تلقائيا. نقدي، يعمل إطار عملنا على فكرة النمط الذي تم توعيته بطريقة مرنة تمكن مفاهيمين متميزين من النمط المباشر: (1) الحد الأدنى من الفكرة التي تتقاطع بشكل فعال أن الأنماط المختلفة التي شوهدت في التدريب، و (2) مفهوم أقصى يسعى إلى التباطؤ بإضافة ميزات أسلوبية لجميع السمات الحساسة إلى النص، ساري المفعول، حوسبة نقابة الأساليب. يمكن استخدام إطار عملنا النمط الخاص بنا لأغراض متعددة، ومع ذلك، فإننا نوضح فعاليته في تحسين نزاهة المصب المصب. نقوم أيضا بإجراء دراسة شاملة عن تأثير تجمع الأنماط على الطلاقة والاتساق الدلالي، وإزالة السمة من النص، في اثنين وثلاث نقل نمط النطاق.
يتم تطبيق مصنف النصوص بانتظام على النصوص الشخصية، وترك مستخدمي هذه المصنفين عرضة لخرق الخصوصية.نقترح حلا لتصنيف النص الذي يحفظه الخصوصية التي تعتمد على الشبكات العصبية التنافعية (CNNS) والحساب الآمن متعدد الأحزاب (MPC).تتيح طريقتنا استنتاج تسمية فئة لنص شخصي بهذه الطريقة (1) لا يتعين على مالك النص الشخصي الكشف عن نصها لأي شخص بطريقة غير مشفرة، و (2) مالك النصلا يتعين على المصنف أن يكشف عن المعلمات النموذجية المدربة إلى مالك النص أو أي شخص آخر.لإظهار جدوى بروتوكولنا لتصنيف النص الخاص العملي، نفذناها في Fronten Fresk Framepten المستندة إلى Pytorch، باستخدام مخطط تقاسم سري معروف جيدا في الإعداد الصادق وغير الغريب.نحن نختبر وقت تشغيل مصنف نصي المحفوظ في الخصوصية لدينا، وهو سريع بما يكفي لاستخدامه في الممارسة العملية.
في هذه الورقة، نستكشف تصنيف النص بالإشراف الضعيف للغاية، أي بالاعتماد فقط على النص السطحي لأسماء الطبقة. هذا إعداد أكثر تحديا من الإشراف الضعيف الذي يحركه البذور، والذي يسمح بضع كلمات البذور لكل فصل. نحن نقوم باختيار مهاجمة هذه المشكلة من منظور تعليم التمثيل --- يجب أن تؤدي تمثيلات المستندات المثالية إلى نفس النتائج نفسها بين المجموعات والتصنيف المرغوب فيه. على وجه الخصوص، يمكن للمرء أن يصنف نفس الشفرة بشكل مختلف (على سبيل المثال، استنادا إلى الموضوعات والمواقع)، لذلك يجب أن تكون تمثيلات المستندات التكيفية بأسماء الطبقة المحددة. نقترح إطار رواية X-Class لتحقيق التمثيلات التكيفية. على وجه التحديد، نقدر أولا تمثيلات الطبقة من خلال إضافة كلمة أكثر مماثلة لكل فصل إلى أن تنشأ عدم التناقض. بعد مزيج مصمم من آليات الاهتمام بالفئة، نحصل على تمثيل الوثائق من خلال متوسط ​​تمثيلات الكلمات السياقية المرجحة. مع سابقة كل وثيقة تم تعيينها إلى أقرب فئة، فإننا نستخدمها ثم قم بمحاذاة المستندات إلى الفصول الدراسية. أخيرا، نختار المستندات الأكثر ثقة من كل كتلة لتدريب مصنف النص. تثبت تجارب واسعة أن فئة X يمكنها منافسها وحتى التوفيق على الأساليب الإشراف على البذور على البذور على 7 مجموعات من مجموعات البيانات القياسية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا