نقترح بشكل مسبق، مرحلة تعليمية واسعة النطاق على نطاق واسع بين نموذج اللغة قبل التدريب والضبط بشكل جيد.ما قبل التأثيرات المسبقة للتعلم متعدد المهام على نطاق واسع (حوالي 50 مجموعة من مجموعات البيانات، أكثر من 4.8 مليون أمثلة كاملة المسمى)، وهي مصممة لتشجيع تعلم التمثيلات التي تعمم بشكل أفضل للعديد من المهام المختلفة.نظظ أننا نتحسن باستمرار بشكل ثابت على تحسين الأداء من أجل التمييز المسبق (مثل روبرتا) ونماذج الجيل (مثل بارت) على مجموعة واسعة من المهام (تنبؤ الحكم، ومنطق العمولة، وما إلى ذلك)، مع تحسين كفاءة العينة بشكل كبير بشكل كبير أثناء غرامة-ضبط.نظهر أيضا أن المهام المتعدد واسع النطاق أمر بالغ الأهمية؛يمكن أن تؤذي ما قبل الاستخدام مسبقا الأداء عند استخدام عدد قليل من المهام حتى نقطة حرجة (عادة أعلى من 15) بعد أن يحسن الأداء خطيا في عدد المهام.
We propose pre-finetuning, an additional large-scale learning stage between language model pre-training and fine-tuning. Pre-finetuning is massively multi-task learning (around 50 datasets, over 4.8 million total labeled examples), and is designed to encourage learning of representations that generalize better to many different tasks. We show that pre-finetuning consistently improves performance for pretrained discriminators (e.g. RoBERTa) and generation models (e.g. BART) on a wide range of tasks (sentence prediction, commonsense reasoning, MRC, etc.), while also significantly improving sample efficiency during fine-tuning. We also show that large-scale multi-tasking is crucial; pre-finetuning can hurt performance when few tasks are used up until a critical point (usually above 15) after which performance improves linearly in the number of tasks.
References used
https://aclanthology.org/
Abstract For natural language processing systems, two kinds of evidence support the use of text representations from neural language models pretrained'' on large unannotated corpora: performance on application-inspired benchmarks (Peters et al., 2018
Text variational autoencoders (VAEs) are notorious for posterior collapse, a phenomenon where the model's decoder learns to ignore signals from the encoder. Because posterior collapse is known to be exacerbated by expressive decoders, Transformers ha
We study a new problem of cross-lingual transfer learning for event coreference resolution (ECR) where models trained on data from a source language are adapted for evaluations in different target languages. We introduce the first baseline model for
We investigate the representations learned by vision and language models in tasks that require relational reasoning. Focusing on the problem of assessing the relative size of objects in abstract visual contexts, we analyse both one-step and two-step
This paper describes our contribution to the WASSA 2021 shared task on Empathy Prediction and Emotion Classification. The broad goal of this task was to model an empathy score, a distress score and the overall level of emotion of an essay written in