التدريب التكميلي على مهام البيانات المتوسطة الواسعة (المقابلة) هي تقنية مطبقة على نطاق واسع، والتي تلتزم أولا نماذج اللغة المحددة مسبقا في مهمة وسيطة من قبل على المهمة المستهدفة المهم.في حين أن الطفولة قادرة على تحسين أداء نماذج اللغة المحددة مسبقا، فلا تزال غير واضحة لماذا وعندما يعمل.تبين الأبحاث السابقة أن هذه المهام الوسيطة التي تنطوي على استنتاج معقد، مثل التفكير المنطقي، والعمل بشكل جيد بشكل جيد لروبرتا كبير.في هذه الورقة، نكتشف أن التحسن من المهمة المتوسطة يمكن أن يكون متعامدا له يحتوي على التفكير أو غيرها من المهارات المعقدة --- يمكن له مهمة تمييزية مزيفة حقيقية مزيفة من قبل GPT2 يمكن أن تستفيد مهام مستهدفة متنوعة.نقوم بإجراء تجارب مكثفة لدراسة تأثير العوامل المختلفة على الطفولة.تشير هذه النتائج إلى إعادة التفكير في دور الصقل الدقيق المتوسطة في خط أنابيب المقابلة.
Supplementary Training on Intermediate Labeled-data Tasks (STILT) is a widely applied technique, which first fine-tunes the pretrained language models on an intermediate task before on the target task of interest. While STILT is able to further improve the performance of pretrained language models, it is still unclear why and when it works. Previous research shows that those intermediate tasks involving complex inference, such as commonsense reasoning, work especially well for RoBERTa-large. In this paper, we discover that the improvement from an intermediate task could be orthogonal to it containing reasoning or other complex skills --- a simple real-fake discrimination task synthesized by GPT2 can benefit diverse target tasks. We conduct extensive experiments to study the impact of different factors on STILT. These findings suggest rethinking the role of intermediate fine-tuning in the STILT pipeline.
References used
https://aclanthology.org/
Models pretrained with self-supervised objectives on large text corpora achieve state-of-the-art performance on English text summarization tasks. However, these models are typically fine-tuned on hundreds of thousands of data points, an infeasible re
Transformer-based pre-trained language models have significantly improved the performance of various natural language processing (NLP) tasks in the recent years. While effective and prevalent, these models are usually prohibitively large for resource
We introduce Dynabench, an open-source platform for dynamic dataset creation and model benchmarking. Dynabench runs in a web browser and supports human-and-model-in-the-loop dataset creation: annotators seek to create examples that a target model wil
Transformer is an attention-based neural network, which consists of two sublayers, namely, Self-Attention Network (SAN) and Feed-Forward Network (FFN). Existing research explores to enhance the two sublayers separately to improve the capability of Tr
Transformer-based language models (LMs) pretrained on large text collections are proven to store a wealth of semantic knowledge. However, 1) they are not effective as sentence encoders when used off-the-shelf, and 2) thus typically lag behind convers