ترغب بنشر مسار تعليمي؟ اضغط هنا

التنظيم الذاتي المشرف على تصنيف النص

Self-supervised Regularization for Text Classification

466   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصنيف النص التجريدي هو مشكلة مدروسة على نطاق واسع ولها تطبيقات واسعة. في العديد من مشاكل العالم الحقيقي، يعد عدد النصوص الخاصة بنماذج تصنيف التدريب محدودا، مما يجعل هذه النماذج عرضة للجيش. لمعالجة هذه المشكلة، نقترح SSL-REG، نهج التنظيم المعتمد على البيانات بناء على التعلم الذاتي (SSL). SSL (Devlin et al.، 2019A) هو نهج تعليمي غير محدد يحدد المهام المساعدة على بيانات الإدخال دون استخدام أي ملصقات موجودة بين الإنسان وتعلم تمثيلات البيانات من خلال حل هذه المهام الإضافية. يتم تنفيذ مهمة SSL-REG، وهي مهمة تصنيف إشراف ومهمة SSL غير المدبرة في وقت واحد. المهمة SSL غير مدعومة، والتي يتم تعريفها بحتة على نصوص الإدخال دون استخدام أي ملصقات مقدمة بين الإنسان. يمكن للتدريب على نموذج باستخدام مهمة SSL منع النموذج من محفورا إلى عدد محدود من الملصقات الفئة في مهمة التصنيف. تجارب في 17 مجموعة بيانات تصنيف النص توضح فعالية طريقةنا المقترحة. رمز متاح في https://github.com/ucsd-ai4h/ssreg.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أصبح التعلم المستمر أمرا مهما بشكل متزايد لأنه تمكن نماذج NLP للتعلم باستمرار واكتساب المعرفة بمرور الوقت. يتم تصميم أساليب التعلم المستمرة السابقة بشكل أساسي للحفاظ على المعرفة من المهام السابقة، دون التركيز كثيرا على كيفية تعميم النماذج بشكل جيد لم هام جديدة. في هذا العمل، نقترح طريقة التنظيم القائم على معلومات المعلومات للتعلم المستمر حول تصنيف النص. أسلوبنا المقترح أولا DESENTANGLES نص مساحات مخفية في تمثيلات عامة لجميع المهام والتمثيلات الخاصة بكل مهمة فردية، ومزيد من تنظيم هذه التمثيلات بشكل مختلف بشكل أفضل تقييد المعرفة المطلوبة للتعميم. نحن نقدم أيضا مهام مساعدة بسيطة: التنبؤ بالجمل التالي وتنبؤ المهام معرف المهام، لتعلم مساحات تمثيلية عامة ومحددة أفضل. توضح التجارب التي أجريت على معايير واسعة النطاق فعالية طريقتنا في مهام تصنيف النص المستمر مع تسلسلات مختلفة وأطوال فوق خطوط الأساس الحديثة. لقد أصدرنا علنا ​​رمزنا في https://github.com/gt-salt/idbr.
تلقت تصنيف النص الإشراف ضعيف اهتماما كبيرا في السنوات الأخيرة لأنه يمكن أن يخفف من العبء الثقيل في التخلص من البيانات الضخمة. من بينها، الأساليب التي يحركها الكلمات الرئيسية هي السائدة حيث يتم استغلال الكلمات الرئيسية التي توفرها المستخدم لتوليد ملصق ات زائفة للنصوص غير المسبقة. ومع ذلك، فإن الطرق الحالية تعالج الكلمات الرئيسية بشكل مستقل، وبالتالي تجاهل الارتباط بينها، والتي ينبغي أن تكون مفيدة إذا استغلت بشكل صحيح. في هذه الورقة، نقترح إطارا جديدا يسمى ClassKG لاستكشاف ارتباط الكلمات الرئيسية الكلمة الرئيسية على الرسم البياني للكلمة الرئيسية بواسطة GNN. إطار عملنا هو عملية تكرارية. في كل تكرار، نقوم أولا بإنشاء رسم بياني للكلمات الرئيسية، لذلك يتم تحويل مهمة تعيين ملصقات زائفة إلى التسجيل عبر الكلمات الرئيسية. لتحسين جودة التعليق التوضيحي، نقدم مهمة ذاتية الإشراف على الصنع بتقسيم Annetator Sigcraph، ثم Finetune IT. باستخدام الملصقات الزائفة التي تم إنشاؤها بواسطة Annotator Siggraph، ثم تدريب مصنف نصي لتصنيف النصوص غير المسبق. أخيرا، نعيد استخراج الكلمات الرئيسية من النصوص المبوبة. تظهر تجارب واسعة النطاق على كل من مجموعات البيانات الطويلة والنص القصير أن طريقتنا تتفوق بشكل كبير على تلك الموجودة.
الأساليب القائمة على المحولات جذابة لتصنيف النص متعدد اللغات، ولكن معايير البحوث الشائعة مثل XNLI (Conneau et al.، 2018) لا تعكس توافر البيانات ومجموعة واسعة من تطبيقات الصناعة.نقدم مقارنة تجريبية من نماذج تصنيف النص المستند إلى المحولات في مجموعة مت نوعة من إعدادات الاحتياطية وغير اللغوية المتعددة اللغات والضبط.نقيم هذه الأساليب على مهمتين متميزتين في خمس لغات مختلفة.المغادرة من العمل السابق، تظهر نتائجنا أن نماذج لغة متعددة اللغات يمكن أن تتفوق على تلك المهام المطردة في بعض المهام المصب واللغات المستهدفة.نوضح بالإضافة إلى ذلك أن التعديلات العملية مثل المهام وعمالة العمل التكيفية والتكييف يمكن أن تحسن أداء التصنيف دون الحاجة إلى بيانات إضافية إضافية.
يتم تطبيق مصنف النصوص بانتظام على النصوص الشخصية، وترك مستخدمي هذه المصنفين عرضة لخرق الخصوصية.نقترح حلا لتصنيف النص الذي يحفظه الخصوصية التي تعتمد على الشبكات العصبية التنافعية (CNNS) والحساب الآمن متعدد الأحزاب (MPC).تتيح طريقتنا استنتاج تسمية فئة لنص شخصي بهذه الطريقة (1) لا يتعين على مالك النص الشخصي الكشف عن نصها لأي شخص بطريقة غير مشفرة، و (2) مالك النصلا يتعين على المصنف أن يكشف عن المعلمات النموذجية المدربة إلى مالك النص أو أي شخص آخر.لإظهار جدوى بروتوكولنا لتصنيف النص الخاص العملي، نفذناها في Fronten Fresk Framepten المستندة إلى Pytorch، باستخدام مخطط تقاسم سري معروف جيدا في الإعداد الصادق وغير الغريب.نحن نختبر وقت تشغيل مصنف نصي المحفوظ في الخصوصية لدينا، وهو سريع بما يكفي لاستخدامه في الممارسة العملية.
تركز أساليب تصنيف النص الحالية أساسا على مجموعة تسمية ثابتة، في حين أن العديد من التطبيقات في العالم الحقيقي تتطلب تمديد فئات جديدة من الرباعي حيث يزيد عدد العينات لكل علامة. لاستيعاب هذه المتطلبات، نقدم مشكلة جديدة تسمى تصنيف الحبيبات الخشنة إلى الد قيقة، والتي تهدف إلى أداء تصنيف جيد الحبيبات على البيانات المشروحة بشكل خشن. بدلا من طلب التعليقات التوضيحية البشرية المحبوبة الجديدة، فإننا نقوم باختيار الاستفادة من أسماء السطح التسمية باعتبارها الإرشادات البشرية الوحيدة والنسج في نماذج لغوية غنية مدربة مسبقا في استراتيجية الإشراف الضعيفة المتكررة. على وجه التحديد، نقترح أولا صياغة صياغة دقيقة مشروطة على التسمية لتحريك هذه المولدات لمهمتنا. علاوة على ذلك، نركض هدف تنظيمي بناء على قيود العلامات الجميلة الخشنة المستمدة من إعداد مشكلتنا، مما يتيح لنا المزيد من التحسينات على الصيغة السابقة. يستخدم إطار عملنا النماذج الإدارية التي تم ضبطها بشكل جيد لعينة بيانات التدريب الزائفة لتدريب المصنف، و BootStraps على البيانات الحقيقية غير المسبقة لتحسين النموذج. تجارب واسعة دراسات حالة عن مجموعات بيانات عالمية في العالم الحقيقي تثبت أداء فائقا فوق خطوط خطوط تصنيف Sota-Shot-Shot.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا