ترغب بنشر مسار تعليمي؟ اضغط هنا

X-Class: تصنيف النص بالإشراف ضعيف للغاية

X-Class: Text Classification with Extremely Weak Supervision

526   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نستكشف تصنيف النص بالإشراف الضعيف للغاية، أي بالاعتماد فقط على النص السطحي لأسماء الطبقة. هذا إعداد أكثر تحديا من الإشراف الضعيف الذي يحركه البذور، والذي يسمح بضع كلمات البذور لكل فصل. نحن نقوم باختيار مهاجمة هذه المشكلة من منظور تعليم التمثيل --- يجب أن تؤدي تمثيلات المستندات المثالية إلى نفس النتائج نفسها بين المجموعات والتصنيف المرغوب فيه. على وجه الخصوص، يمكن للمرء أن يصنف نفس الشفرة بشكل مختلف (على سبيل المثال، استنادا إلى الموضوعات والمواقع)، لذلك يجب أن تكون تمثيلات المستندات التكيفية بأسماء الطبقة المحددة. نقترح إطار رواية X-Class لتحقيق التمثيلات التكيفية. على وجه التحديد، نقدر أولا تمثيلات الطبقة من خلال إضافة كلمة أكثر مماثلة لكل فصل إلى أن تنشأ عدم التناقض. بعد مزيج مصمم من آليات الاهتمام بالفئة، نحصل على تمثيل الوثائق من خلال متوسط ​​تمثيلات الكلمات السياقية المرجحة. مع سابقة كل وثيقة تم تعيينها إلى أقرب فئة، فإننا نستخدمها ثم قم بمحاذاة المستندات إلى الفصول الدراسية. أخيرا، نختار المستندات الأكثر ثقة من كل كتلة لتدريب مصنف النص. تثبت تجارب واسعة أن فئة X يمكنها منافسها وحتى التوفيق على الأساليب الإشراف على البذور على البذور على 7 مجموعات من مجموعات البيانات القياسية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أحد كتل المبنى الأولى لإنشاء مساعد صوت يتعلق بمهمة وضع علامة الكيانات أو السمات في استعلامات المستخدم. يمكن أن يكون هذا تحديا بشكل خاص عندما تكون الكيانات في العاشر من الملايين، كما هو الحال على سبيل المثال كتالوجات الموسيقى. تتطلب نماذج وضع العلامات التدريبية التدريبية على نطاق صناعي كميات كبيرة من استفسارات المستخدم المسمى بدقة، والتي غالبا ما تكون صعبة ومكلفة لجمعها. من ناحية أخرى، جمع المساعدون الصوتيين عادة الكثير من الاستفسارات غير المستمرة التي لا تزال غير منفصلة في كثير من الأحيان. تقدم هذه الورقة منهجية خاضعة للإشراف ضعيفا لتسمية كميات كبيرة من سجلات الاستعلام الصوتية، معززة مع خطوة تصفية يدوية. تظهر التقييمات التجريبية لدينا أن نماذج علامات الشريعة المدربة على البيانات المتفوقة على البيانات التي تجريب ضعيف تدربت على البيانات المشروحة باليد أو الاصطناعية، بتكلفة أقل. علاوة على ذلك، يؤدي التصفية اليدوية للبيانات الخاضعة للإشراف إلى انخفاض كبير في معدل خطأ العقوبة، مع السماح لنا بتقليل جهود الرعاية البشرية بشكل كبير من أسابيع إلى ساعات، فيما يتعلق بالتعليق اليدوي للاستفسارات. يتم تطبيق الطريقة بنجاح Bootstrap نظام علامات Slot لخدمة تدفق الموسيقى الرئيسية التي تخدم حاليا العديد من عشرات الآلاف من الاستفسارات الصوتية اليومية.
يتم تطبيق مصنف النصوص بانتظام على النصوص الشخصية، وترك مستخدمي هذه المصنفين عرضة لخرق الخصوصية.نقترح حلا لتصنيف النص الذي يحفظه الخصوصية التي تعتمد على الشبكات العصبية التنافعية (CNNS) والحساب الآمن متعدد الأحزاب (MPC).تتيح طريقتنا استنتاج تسمية فئة لنص شخصي بهذه الطريقة (1) لا يتعين على مالك النص الشخصي الكشف عن نصها لأي شخص بطريقة غير مشفرة، و (2) مالك النصلا يتعين على المصنف أن يكشف عن المعلمات النموذجية المدربة إلى مالك النص أو أي شخص آخر.لإظهار جدوى بروتوكولنا لتصنيف النص الخاص العملي، نفذناها في Fronten Fresk Framepten المستندة إلى Pytorch، باستخدام مخطط تقاسم سري معروف جيدا في الإعداد الصادق وغير الغريب.نحن نختبر وقت تشغيل مصنف نصي المحفوظ في الخصوصية لدينا، وهو سريع بما يكفي لاستخدامه في الممارسة العملية.
يهدف تصنيف النص الخاضع للإشراف ضعيف إلى حثص نصوص النص من عدد قليل من كلمات البذور التي توفرها المستخدم. غالبية العمل العظمى من العمل السابق يفترض أن كلمات البذور عالية الجودة تعطى. ومع ذلك، فإن كلمات البذور المشروح للخبراء في بعض الأحيان غير تافهة لل توصل إلى ذلك. علاوة على ذلك، في إعداد التعلم الإشراف ضعيف، ليس لدينا أي وثيقة مسمى لقياس فعالية كلمات البذور، مما يجعل عملية اختيار كلمة البذور المشي في الظلام ". في هذا العمل، نقوم بإزالة الحاجة إلى كلمات البذور التي يديرها الخبراء من قبل كلمات البذور المرشحة الأولى (صاخبة) المرتبطة بأسماء الفئات. ثم تدريب نماذج مؤقتة بكلمات البذور المرشحة الفردية. أخيرا، نقدر معدل خطأ النماذج المؤقتة بطريقة غير منشأة. تتم إضافة كلمات البذور التي تسفر عن أدنى معدلات الخطأ المقدرة إلى مجموعة كلمات البذور النهائية. يوضح تقييم شامل لستة مهام التصنيف الثنائية على أربع مجموعات بيانات شائعة أن الطريقة المقترحة تتفوق على خط أساس باستخدام كلمات البذور اسم الفئة فقط والحصول على أداء مماثل كظرف باستخدام كلمات البذور المشروح من الخبراء.
حقق نماذج اللغة المدربة مسبقا بشكل جيد (LMS) نجاحا هائلا في العديد من مهام معالجة اللغة الطبيعية (NLP)، لكنها لا تزال تتطلب بيانات مفرطة الحجم في مرحلة ضبط الدقيقة. ندرس مشكلة LMS المدبرة مسبقا باستخدام إشراف ضعيف فقط، دون أي بيانات معدنية. هذه المشك لة تحديا لأن قدرة LMS عالية تجعلها عرضة للاحتفاظ بالملصقات الصاخبة الناتجة عن إشراف ضعيف. لمعالجة هذه المشكلة، نحن نطور إطارا للتدريب الذاتي للتناقض، جيب التمام، لتمكين LMS الرصيف مع إشراف ضعيف. تدعمه التنظيم البسيط والنعيد القائم على الثقة، فإن إطار عملائنا يحسن تدريجيا من تركيب النموذج مع قمع انتشار الأخطاء بشكل فعال. تشير التجارب على التسلسل، الرمز المميز، ومهام تصنيف زوج الزوج الحكم إلى أن نموذجنا يتفوق على أقوى خط أساس عن طريق الهوامش الكبيرة وتحقق أداء تنافسي مع أساليب ضبط صاخبة بالكامل. تنفيذنا متاح على https://github.com/yueyu1030/cosine.
نماذج NLP عرضة لهجمات تسمم البيانات.يمكن لنوع واحد من الهجوم زرع الأبعاد في نموذج عن طريق حقن الأمثلة المسمولة في التدريب، مما تسبب في نموذج الضحية لإضاءة مثيلات الاختبار التي تتضمن نمطا محددا.على الرغم من أن الدفاعات موجودة لمواجهة هذه الهجمات، فهي محددة لنوع هجوم أو نمط.في هذه الورقة، نقترح آلية دفاعية عامة من خلال جعل عملية التدريب قوية للتسمم بالهجمات من خلال طرق تشكيل التدرج، بناء على التدريب الخاص بشكل مختلف.نظهر أن طريقتنا فعالة للغاية في التخفيف، أو حتى القضاء على الهجمات التسمم على تصنيف النص، مع تكلفة صغيرة فقط في دقة التنبؤية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا