يتم استخدام نماذج اللغة المحددة على كورسا شاسعة للنص غير منظم باستخدام إطار التعلم الذاتي للإشراف في العديد من فهم اللغة الطبيعية ومهام الجيل. تشير العديد من الدراسات إلى أن الاستحواذ على اللغة في البشر يتبع نمطا بسيطا مهيكيا ومجهدا بهذا الحدس، وتعلم المناهج الدراسية، مما يتيح تدريب النماذج الحسابية في ترتيب مغزى، مثل معالجة العينات السهلة قبل الصعب، وقد عرضت للحد من وقت التدريب المحتمل. لا يزال السؤال ما إذا كان يمكن لمعرفة المناهج الدراسية أن تستفيد من نماذج اللغة. في هذا العمل، نقوم بإجراء تجارب شاملة تنطوي على استراتيجيات مناهج متعددة تختلف معايير التعقيد وجداول التدريب. النتائج التجريبية لتدريب نماذج لغة المحولات على الإنجليزي كوربوس وتقييمها جوهريا وكذلك بعد التقليل من ثمانية مهام من معيار الغراء، تظهر مكاسب تحسن متسقة حول تدريب الفانيليا التقليدي. ومن المثير للاهتمام، في تجاربنا، عند تقييمها على عصر واحد، أفضل نموذج في أعقاب المناهج الدراسية ذات المستوى الثابت على مستوى المستند، تتفوق على نموذج الفانيليا بنسبة 1.7 نقطة (متوسط درجة الغراء) ويستغرق نموذج الفانيليا ضعف العديد من خطوات التدريب للوصول إلى أداء مماثل.
Language models pretrained on vast corpora of unstructured text using self-supervised learning framework are used in numerous natural language understanding and generation tasks. Many studies show that language acquisition in humans follows a rather structured simple-to-complex pattern and guided by this intuition, curriculum learning, which enables training of computational models in a meaningful order, such as processing easy samples before hard ones, has been shown to potentially reduce training time. The question remains whether curriculum learning can benefit pretraining of language models. In this work, we perform comprehensive experiments involving multiple curricula strategies varying the criteria for complexity and the training schedules. Empirical results of training transformer language models on English corpus and evaluating it intrinsically as well as after fine-tuning across eight tasks from the GLUE benchmark, show consistent improvement gains over conventional vanilla training. Interestingly, in our experiments, when evaluated on one epoch, the best model following a document-level hard-to-easy curriculum, outperforms the vanilla model by 1.7 points (average GLUE score) and it takes the vanilla model twice as many training steps to reach comparable performance.
References used
https://aclanthology.org/
Code-Mixing (CM) is a common phenomenon in multilingual societies. CM plays a significant role in technology and medical fields where terminologies in the native language are not available or known. Language Identification (LID) of the CM data will h
We introduce a new pretraining approach geared for multi-document language modeling, incorporating two key ideas into the masked language modeling self-supervised objective. First, instead of considering documents in isolation, we pretrain over sets
With the recent breakthrough of deep learning technologies, research on machine reading comprehension (MRC) has attracted much attention and found its versatile applications in many use cases. MRC is an important natural language processing (NLP) tas
Supervised approaches usually achieve the best performance in the Word Sense Disambiguation problem. However, the unavailability of large sense annotated corpora for many low-resource languages make these approaches inapplicable for them in practice.
A possible explanation for the impressive performance of masked language model (MLM) pre-training is that such models have learned to represent the syntactic structures prevalent in classical NLP pipelines. In this paper, we propose a different expla