على الرغم من نجاحاتها الأخيرة في معالجة العديد من مهام NLP، لا تؤدي نماذج اللغة المدربة مسبقا على نطاق واسع وكذلك في إعدادات قليلة، حيث تتوفر حفنة من الأمثلة التدريبية فقط. لمعالجة هذا القصور، نقترح الطبقات، والتي تعني التدريب الذاتي مع تكبير المهمة، وهو نهج يبني على أفكارين رئيسيين للرافعة الفعالة من البيانات غير المسبقة. أولا، تستخدم Strata تكبير المهمة، وهي تقنية جديدة توليف كمية كبيرة من البيانات الخاصة بضبط المهمة المساعدة من النصوص المستهدفة من النصوص المستهدفة. ثانيا، تقوم الطبقات بإجراء تدريبات ذاتية من خلال زيادة ضبط النموذج القوي القوي الذي تم إنشاؤه بواسطة تكبير المهمة على توزيع واسع للبيانات المسمى الزائفة. توضح تجاربنا أن الطبقات يمكن أن تحسن بشكل كبير كفاءة عينة في 12 معيارا قليلة بالرصاص. بشكل ملحوظ، على DataSet SST-2 المعنويات، Strata، مع 8 أمثلة تدريبية فقط لكل فصل، تحقق نتائج قابلة للمقارنة للضبط بشكل جيد مع أمثلة تدريبية 67K. تكشف تحليلاتنا أن تكبير المهمة والتدريب الذاتي متكاملين وفعالا بشكل مستقل.
Despite their recent successes in tackling many NLP tasks, large-scale pre-trained language models do not perform as well in few-shot settings where only a handful of training examples are available. To address this shortcoming, we propose STraTA, which stands for Self-Training with Task Augmentation, an approach that builds on two key ideas for effective leverage of unlabeled data. First, STraTA uses task augmentation, a novel technique that synthesizes a large amount of data for auxiliary-task fine-tuning from target-task unlabeled texts. Second, STraTA performs self-training by further fine-tuning the strong base model created by task augmentation on a broad distribution of pseudo-labeled data. Our experiments demonstrate that STraTA can substantially improve sample efficiency across 12 few-shot benchmarks. Remarkably, on the SST-2 sentiment dataset, STraTA, with only 8 training examples per class, achieves comparable results to standard fine-tuning with 67K training examples. Our analyses reveal that task augmentation and self-training are both complementary and independently effective.
References used
https://aclanthology.org/
As the labeling cost for different modules in task-oriented dialog (ToD) systems is expensive, a major challenge is to train different modules with the least amount of labeled data. Recently, large-scale pre-trained language models, have shown promis
Natural Language Processing (NLP) is increasingly relying on general end-to-end systems that need to handle many different linguistic phenomena and nuances. For example, a Natural Language Inference (NLI) system has to recognize sentiment, handle num
We tackle the problem of self-training networks for NLU in low-resource environment---few labeled data and lots of unlabeled data. The effectiveness of self-training is a result of increasing the amount of training data while training. Yet it becomes
State-of-the-art deep neural networks require large-scale labeled training data that is often expensive to obtain or not available for many tasks. Weak supervision in the form of domain-specific rules has been shown to be useful in such settings to a
Neural Machine Translation (NMT) approaches employing monolingual data are showing steady improvements in resource-rich conditions. However, evaluations using real-world lowresource languages still result in unsatisfactory performance. This work prop