ترغب بنشر مسار تعليمي؟ اضغط هنا

Cophe: تقييم التدريجي الهرمي للحفاظ على العد في تصنيف النص متعدد العلامات على نطاق واسع

CoPHE: A Count-Preserving Hierarchical Evaluation Metric in Large-Scale Multi-Label Text Classification

433   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتضمن تصنيف النص متعدد العلامات واسعة النطاق (LMTC) مهام مع مسافات تسمية هرمية، مثل التعيين التلقائي لرموز ICD-9 إلى ملخصات التفريغ.يتم تقييم أداء النماذج في الفن السابق مع تدابير الدقة القياسية والتذكر و F1 دون اعتبار للهيكل الهرمي الغني.في هذا العمل، نقول بتقييم هرمي لتنبؤات نماذج LMTC العصبية.مع مثال على علم ICD-9 ontology، نصف مشكلة هيكلية في تمثيل مساحة الملصقات المهيكلة في الفنية السابقة، واقتراح تمثيل بديل بناء على عمق OnTology.نقترح مجموعة من مقاييس التقييم الهرمي باستخدام التمثيل القائم على العمق.قارن درجات التقييم من المقاييس المقترحة مع مقاييس تستخدم سابقا على نماذج LMTC السابقة لترميز ICD-9 في MIMIC-III.كما نقترح أيضا طرق البحث الأخرى التي تنطوي على التمثيل الترطاني المقترح.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يتعامل تصنيف النص المتعدد التسميات الهرمية (HMTC) مع المهمة الصعبة التي يمكن فيها تعيين مثيل للفئات المهيكية المتعددة في نفس الوقت. غالبية الدراسات السابقة إما أن تركز على تقليل مهمة HMTC إلى مشكلة مسطحة متعددة العلامات تتجاهل علاقات الفئات الرأسية أ و استغلال التبعيات عبر مستويات هرمية مختلفة دون النظر في الارتباط الأفقي بين الفئات في نفس المستوى، والتي تؤدي حتما إلى المعلومات الأساسية خسارة. في هذه الورقة، نقترح إطار رواية HMTC يرى الارتباطات الفئة الرأسية والأفقية. على وجه التحديد، نقوم أولا بتصميم شبكة عصبية متقطعة متوترة فضفاضة كمستغل في التمثيل للحصول على تمثيلات للكلمات والوثائق، والأهم من ذلك، والأهم من ذلك، والتعويضات الحكيمة للمستوى بالنسبة للفئات، والتي لا تعتبر في الأعمال السابقة. بعد ذلك، يتم اعتماد تمثيلات الفئة المستفادة لالتقاط التبعيات الرأسي بين مستويات التسلسل الهرمي للفئة ونموذج الارتباط الأفقي. أخيرا، استنادا إلى Admeddings و Emgeddings، نقوم بتصميم خوارزمية هجينة للتنبؤ بفئات الهيكل الهرمي بأكمله. تجارب واسعة أجريت على مجموعات بيانات HMTC العالمية الحقيقية صحة فعالية الإطار المقترح بدعوات كبيرة على خط الأساس.
ندرس تأثير استخدام الأوصاف النصية الغنية والمتنوعة من الفصول الدراسية للتعلم الصفرية (ZSL) على ImageNet.نقوم بإنشاء مجموعة بيانات جديدة Imagenet-Wiki التي تتطابق مع كل فئة Imagenet إلى مقالها في ويكيبيديا المقابل.نظهر أن استخدام هذه المقالات في ويكيب يديا فقط كصامإصاف فئة يؤدي إلى ارتفاع أداء ZSL أعلى بكثير من الأعمال السابقة.حتى نموذج بسيط باستخدام هذا النوع من البيانات المساعدة تفوق النماذج الحديثة التي تعتمد على ميزات قياسية من Word تضمين ترميزات أسماء الفئة.تسليط الضوء على هذه النتائج فائدة وأهمية الأوصاف النصية ل ZSL، بالإضافة إلى الأهمية النسبية لنوع البيانات الإضافية مقارنة بالتقدم المحرز في الخوارزمية.تظهر نتائجنا التجريبية أيضا أن نهج التعلم المعيارية بالرصاص المعيارية تعميم بشكل سيء عبر فئات الطبقات.
يتم تدريب نماذج استرجاع الحالية على نطاق واسع على نطاق واسع مع 0-1 تسمية صعبة تشير إلى ما إذا كان الاستعلام مناسب بمستند، وتجاهل المعلومات الغنية من درجة الأهمية.تقترح هذه الورقة تحسين الاسترجاع القائم على التضمين من منظور توصيف أفضل شهادة استفسار ال وثيقة عن طريق إدخال تحسين التسمية (LE) لأول مرة.لتوليد توزيع الملصقات في سيناريو استرجاع، نقوم بتصميم طريقة رواية وفعالة تم إشرافها التي تتضمن المعرفة السابقة من أساليب الترجيح الديناميكي إلى تضمينات سياقية.تتفوقت طريقتنا بشكل كبير أربع نماذج استرجاع قابلة للتنافسية ونظرائها المجهزة بتقنيتين بديلين من نماذج التدريب مع توزيع الملصقات التي تم إنشاؤها كمعلومات الإشراف المساعدة.يمكن ملاحظة التفوق بسهولة على مهام استرجاع اللغة الإنجليزية والصينية على نطاق واسع تحت إعدادات بدء التشغيل القياسية والباردة.
في هذه الورقة، نقدم مجموعة بيانات جديدة تستند إلى Twitter للكشف عن السيبراني وإساءة استخدام عبر الإنترنت.تضم هذه البيانات التي تضم 62،587 تغريدات، تم الحصول على هذه البيانات من تويتر باستخدام شروط استعلام محددة تهدف إلى استرداد تغريدات مع احتمالات عا لية من أشكال مختلفة من البلطجة والمحتوى المسيء، بما في ذلك الإهانة والتصيد والبهجة والسخرية والتهديد والإباحية والاستبعاد.لقد قامنا بتجنيد مجموعة من 17 ملقاة لأداء التعليق التوضيحي بحبائهم الجميلة على مجموعة بيانات كل تغريدة موضحة بمثابة ثلاثة محنوح.جميع الحناحيين لدينا هي مستخدمي التعليم العالي والمتكرر في المدرسة الثانوية.اتفاقية المشتركة بين الخصوصية لأن مجموعة البيانات التي تقاسها Krippendorff's ألفا هي 0.67.تم تأكيد التحليلات التي أجريتها في مجموعة بيانات الموضوعات الإلكترونية المشتركة التي أبلغت عن دراسات أخرى وكشفت علاقات مثيرة للاهتمام بين الطبقات.تم استخدام DataSet لتدريب عدد من نماذج التعلم العميقة المستندة إلى المحولات التي تعود إلى نتائج مثيرة للإعجاب.
توضح هذه الورقة نهجنا للمهمة المشتركة على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع في المؤتمر السادس حول الترجمة الآلية (WMT-21).في هذا العمل، نهدف إلى بناء نظام ترجمة متعددة اللغات واحدا مع فرضية أن تمثيل عالمي عبر اللغة يؤدي إلى أداء ترجمة متع ددة اللغات بشكل أفضل.نحن نقدم استكشاف أساليب الترجمة الخلفي المختلفة من الترجمة الثنائية إلى الترجمة متعددة اللغات.يتم الحصول على أداء أفضل من خلال طريقة أخذ العينات المقيدة، والتي تختلف عن اكتشاف الترجمة الثنائية الثدية.علاوة على ذلك، نستكشف أيضا تأثير المفردات ومقدار البيانات الاصطناعية.والمثير للدهشة أن الحجم الأصغر من المفردات أداء أفضل، وتقدم بيانات اللغة الإنجليزية النائية واسعة النطاق تحسنا متواضعا.لقد أرسلنا إلى كل من المهام الصغيرة وتحقيق المركز الثاني.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا