ترغب بنشر مسار تعليمي؟ اضغط هنا

ليست كل السلبيات متساوية: إدراك التسمية الخسارة على نطاق واسع لتصنيف النص المحبب

Not All Negatives are Equal: Label-Aware Contrastive Loss for Fine-grained Text Classification

417   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تنطوي تصنيف الحبيبات الجميلة على التعامل مع مجموعات البيانات مع عدد أكبر من الفصول مع الاختلافات الدقيقة بينهما.إن توجيه النموذج إلى التركيز على أبعاد التفريق بين هذه الفئات القابلة للتصريفية بشكل شائع هو مفتاح تحسين الأداء في مهام الحبيبات الجميلة.في هذا العمل، نقوم بتحليل ضبط النماذج الصعبة المتناقضة من النماذج المدربة مسبقا على مهام تصنيف نصية جيدة الحجم، وتصنيف العاطفة وتحليل المعنويات.قمنا بتضمين علاقات فئة على تكيفا في وظيفة موضوعية مناقصة للمساعدة في وزن الإيجابيات والسلبيات بشكل مختلف، وعلى وجه الخصوص، ترجغ السلبيات المربكة عن كثب أكثر من أمثلة سلبية أقل مماثلة.نجد أن الخسارة على علم التسمية التي تدركها تتفوق على الأساليب المتعاقبة السابقة، في وجود عدد أكبر و / أو فئات أكبر من الفئات القابلة للتصريف، وتساعد النماذج على إنتاج توزيعات الإخراج التي يتم تمييزها أكثر.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعد اعتدال تعليقات القارئ مشكلة كبيرة لمنصات الأخبار عبر الإنترنت.هنا، نقوم بتجربة النماذج للاعتدال التلقائي، باستخدام مجموعة بيانات من التعليقات من جريدة كرواتية شعبية.يوضح تحليلنا أنه في حين أن التعليقات التي تنتهك القواعد الاعتدالية تشترك في الغال ب على ميزات اللغوية والمواضيعية المشتركة، يختلف محتواها عبر أقسام الجريدة المختلفة.لذلك، نجعل نماذجنا تدرك موضوعنا، دمج الميزات الدلالية من نموذج موضوع في قرار التصنيف.تظهر نتائجنا أن معلومات الموضوع تعمل على تحسين أداء النموذج، ويزيد من ثقتها في المخرجات الصحيحة، وتساعدنا على فهم مخرجات النموذج.
تم اقتراح تغييرات مختلفة لإلقاء تحليل التبعية كوسيلة تسلسل وحل المهمة على النحو التالي: (1) مشكلة اختيار الرأس، (II) العثور على تمثيل للأقواس الرمز المميز كسلاسل قوس، أو (3) ربط تسلسل انتقال جزئي من أالمحلل المحلل القائم على الانتقال إلى الكلمات.ومع ذلك، لا يوجد تفاهم ضئيل حول كيفية التصرف هذه الخطية في إعدادات الموارد المنخفضة.هنا، ندرس أولا كفاءة البيانات الخاصة بهم، محاكاة الإعدادات المقيدة بالبيانات من مجموعة متنوعة من Treebanks Result Resource.ثانيا، نختبر ما إذا كانت هذه الاختلافات تظهر في إعدادات الموارد المنخفضة حقا.تظهر النتائج أن ترميزات اختيار الرأس أكثر كفاءة في البيانات وأداء أفضل في إطار مثالي (ذهب)، ولكن هذه الميزة تختفي إلى حد كبير لصالح التنسيقات القوسين عندما يشبه الإعداد قيد التشغيل تكوين الموارد المنخفضة في العالم الحقيقي.
نحن نستخدم التعرف على قانون الحوار (دار) للتحقيق في مدى امتثال بيرت الانتحال في الحوار، وكيف تساهم بضبط الدقيقة والتدريب المسبق على نطاق واسع في أدائها.نجد أنه في حين أن كل من التدريبات القياسية السابقة للتدريب والإحاطاء على البيانات التي تشبه الحوار هي مفيدة، فإن الضبط الدقيق الخاص بمهارات المهام أمر ضروري للأداء الجيد.
يتضمن تصنيف النص متعدد العلامات واسعة النطاق (LMTC) مهام مع مسافات تسمية هرمية، مثل التعيين التلقائي لرموز ICD-9 إلى ملخصات التفريغ.يتم تقييم أداء النماذج في الفن السابق مع تدابير الدقة القياسية والتذكر و F1 دون اعتبار للهيكل الهرمي الغني.في هذا العم ل، نقول بتقييم هرمي لتنبؤات نماذج LMTC العصبية.مع مثال على علم ICD-9 ontology، نصف مشكلة هيكلية في تمثيل مساحة الملصقات المهيكلة في الفنية السابقة، واقتراح تمثيل بديل بناء على عمق OnTology.نقترح مجموعة من مقاييس التقييم الهرمي باستخدام التمثيل القائم على العمق.قارن درجات التقييم من المقاييس المقترحة مع مقاييس تستخدم سابقا على نماذج LMTC السابقة لترميز ICD-9 في MIMIC-III.كما نقترح أيضا طرق البحث الأخرى التي تنطوي على التمثيل الترطاني المقترح.
تركز أساليب تصنيف النص الحالية أساسا على مجموعة تسمية ثابتة، في حين أن العديد من التطبيقات في العالم الحقيقي تتطلب تمديد فئات جديدة من الرباعي حيث يزيد عدد العينات لكل علامة. لاستيعاب هذه المتطلبات، نقدم مشكلة جديدة تسمى تصنيف الحبيبات الخشنة إلى الد قيقة، والتي تهدف إلى أداء تصنيف جيد الحبيبات على البيانات المشروحة بشكل خشن. بدلا من طلب التعليقات التوضيحية البشرية المحبوبة الجديدة، فإننا نقوم باختيار الاستفادة من أسماء السطح التسمية باعتبارها الإرشادات البشرية الوحيدة والنسج في نماذج لغوية غنية مدربة مسبقا في استراتيجية الإشراف الضعيفة المتكررة. على وجه التحديد، نقترح أولا صياغة صياغة دقيقة مشروطة على التسمية لتحريك هذه المولدات لمهمتنا. علاوة على ذلك، نركض هدف تنظيمي بناء على قيود العلامات الجميلة الخشنة المستمدة من إعداد مشكلتنا، مما يتيح لنا المزيد من التحسينات على الصيغة السابقة. يستخدم إطار عملنا النماذج الإدارية التي تم ضبطها بشكل جيد لعينة بيانات التدريب الزائفة لتدريب المصنف، و BootStraps على البيانات الحقيقية غير المسبقة لتحسين النموذج. تجارب واسعة دراسات حالة عن مجموعات بيانات عالمية في العالم الحقيقي تثبت أداء فائقا فوق خطوط خطوط تصنيف Sota-Shot-Shot.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا