تصنيف النص التجريدي هو مشكلة مدروسة على نطاق واسع ولها تطبيقات واسعة. في العديد من مشاكل العالم الحقيقي، يعد عدد النصوص الخاصة بنماذج تصنيف التدريب محدودا، مما يجعل هذه النماذج عرضة للجيش. لمعالجة هذه المشكلة، نقترح SSL-REG، نهج التنظيم المعتمد على البيانات بناء على التعلم الذاتي (SSL). SSL (Devlin et al.، 2019A) هو نهج تعليمي غير محدد يحدد المهام المساعدة على بيانات الإدخال دون استخدام أي ملصقات موجودة بين الإنسان وتعلم تمثيلات البيانات من خلال حل هذه المهام الإضافية. يتم تنفيذ مهمة SSL-REG، وهي مهمة تصنيف إشراف ومهمة SSL غير المدبرة في وقت واحد. المهمة SSL غير مدعومة، والتي يتم تعريفها بحتة على نصوص الإدخال دون استخدام أي ملصقات مقدمة بين الإنسان. يمكن للتدريب على نموذج باستخدام مهمة SSL منع النموذج من محفورا إلى عدد محدود من الملصقات الفئة في مهمة التصنيف. تجارب في 17 مجموعة بيانات تصنيف النص توضح فعالية طريقةنا المقترحة. رمز متاح في https://github.com/ucsd-ai4h/ssreg.
Abstract Text classification is a widely studied problem and has broad applications. In many real-world problems, the number of texts for training classification models is limited, which renders these models prone to overfitting. To address this problem, we propose SSL-Reg, a data-dependent regularization approach based on self-supervised learning (SSL). SSL (Devlin et al., 2019a) is an unsupervised learning approach that defines auxiliary tasks on input data without using any human-provided labels and learns data representations by solving these auxiliary tasks. In SSL-Reg, a supervised classification task and an unsupervised SSL task are performed simultaneously. The SSL task is unsupervised, which is defined purely on input texts without using any human- provided labels. Training a model using an SSL task can prevent the model from being overfitted to a limited number of class labels in the classification task. Experiments on 17 text classification datasets demonstrate the effectiveness of our proposed method. Code is available at https://github.com/UCSD-AI4H/SSReg.
المراجع المستخدمة
https://aclanthology.org/
أصبح التعلم المستمر أمرا مهما بشكل متزايد لأنه تمكن نماذج NLP للتعلم باستمرار واكتساب المعرفة بمرور الوقت. يتم تصميم أساليب التعلم المستمرة السابقة بشكل أساسي للحفاظ على المعرفة من المهام السابقة، دون التركيز كثيرا على كيفية تعميم النماذج بشكل جيد لم
تلقت تصنيف النص الإشراف ضعيف اهتماما كبيرا في السنوات الأخيرة لأنه يمكن أن يخفف من العبء الثقيل في التخلص من البيانات الضخمة. من بينها، الأساليب التي يحركها الكلمات الرئيسية هي السائدة حيث يتم استغلال الكلمات الرئيسية التي توفرها المستخدم لتوليد ملصق
الأساليب القائمة على المحولات جذابة لتصنيف النص متعدد اللغات، ولكن معايير البحوث الشائعة مثل XNLI (Conneau et al.، 2018) لا تعكس توافر البيانات ومجموعة واسعة من تطبيقات الصناعة.نقدم مقارنة تجريبية من نماذج تصنيف النص المستند إلى المحولات في مجموعة مت
يتم تطبيق مصنف النصوص بانتظام على النصوص الشخصية، وترك مستخدمي هذه المصنفين عرضة لخرق الخصوصية.نقترح حلا لتصنيف النص الذي يحفظه الخصوصية التي تعتمد على الشبكات العصبية التنافعية (CNNS) والحساب الآمن متعدد الأحزاب (MPC).تتيح طريقتنا استنتاج تسمية فئة
تركز أساليب تصنيف النص الحالية أساسا على مجموعة تسمية ثابتة، في حين أن العديد من التطبيقات في العالم الحقيقي تتطلب تمديد فئات جديدة من الرباعي حيث يزيد عدد العينات لكل علامة. لاستيعاب هذه المتطلبات، نقدم مشكلة جديدة تسمى تصنيف الحبيبات الخشنة إلى الد