يتم استخدام نماذج اللغة المحددة على كورسا شاسعة للنص غير منظم باستخدام إطار التعلم الذاتي للإشراف في العديد من فهم اللغة الطبيعية ومهام الجيل. تشير العديد من الدراسات إلى أن الاستحواذ على اللغة في البشر يتبع نمطا بسيطا مهيكيا ومجهدا بهذا الحدس، وتعلم المناهج الدراسية، مما يتيح تدريب النماذج الحسابية في ترتيب مغزى، مثل معالجة العينات السهلة قبل الصعب، وقد عرضت للحد من وقت التدريب المحتمل. لا يزال السؤال ما إذا كان يمكن لمعرفة المناهج الدراسية أن تستفيد من نماذج اللغة. في هذا العمل، نقوم بإجراء تجارب شاملة تنطوي على استراتيجيات مناهج متعددة تختلف معايير التعقيد وجداول التدريب. النتائج التجريبية لتدريب نماذج لغة المحولات على الإنجليزي كوربوس وتقييمها جوهريا وكذلك بعد التقليل من ثمانية مهام من معيار الغراء، تظهر مكاسب تحسن متسقة حول تدريب الفانيليا التقليدي. ومن المثير للاهتمام، في تجاربنا، عند تقييمها على عصر واحد، أفضل نموذج في أعقاب المناهج الدراسية ذات المستوى الثابت على مستوى المستند، تتفوق على نموذج الفانيليا بنسبة 1.7 نقطة (متوسط درجة الغراء) ويستغرق نموذج الفانيليا ضعف العديد من خطوات التدريب للوصول إلى أداء مماثل.
Language models pretrained on vast corpora of unstructured text using self-supervised learning framework are used in numerous natural language understanding and generation tasks. Many studies show that language acquisition in humans follows a rather structured simple-to-complex pattern and guided by this intuition, curriculum learning, which enables training of computational models in a meaningful order, such as processing easy samples before hard ones, has been shown to potentially reduce training time. The question remains whether curriculum learning can benefit pretraining of language models. In this work, we perform comprehensive experiments involving multiple curricula strategies varying the criteria for complexity and the training schedules. Empirical results of training transformer language models on English corpus and evaluating it intrinsically as well as after fine-tuning across eight tasks from the GLUE benchmark, show consistent improvement gains over conventional vanilla training. Interestingly, in our experiments, when evaluated on one epoch, the best model following a document-level hard-to-easy curriculum, outperforms the vanilla model by 1.7 points (average GLUE score) and it takes the vanilla model twice as many training steps to reach comparable performance.
المراجع المستخدمة
https://aclanthology.org/
تعد خلط الكود (سم) ظاهرة شائعة في المجتمعات متعددة اللغات. يلعب CM دورا مهما في مجال التكنولوجيا والحقول الطبية حيث تكون المصطلحات في اللغة الأم وغير معروفة. سيساعد تحديد اللغة (غطاء) من بيانات CM حل مهام NLP مثل التدقيق الإملائي، والتعرف على الكيان
نقدم نهجا جديدا محاطا جديدا موجه للنمذجة اللغوية متعددة الوثائق، حيث تتضمن أفكيرا رئيسيتين في النمذجة اللغوية المشنقة بالهدف الإشراف على الذات.أولا، بدلا من النظر في الوثائق في العزلة، نحن نتفق مع مجموعات من المستندات المتعددة المتعددة، تشجيع النموذج
مع الانفراج الأخير لتكنولوجيات التعلم العميق، اجتذبت البحث عن الفهم في قراءة الآلة (MRC) اهتماما كبيرا ووجدت تطبيقاتها متعددة الاستخدامات في العديد من حالات الاستخدام. MRC هي مهمة مهمة لمعالجة اللغة الطبيعية (NLP) تهدف إلى تقييم قدرة الجهاز لفهم تعبي
عادة ما تحقق الأساليب الخاضعة للإشراف أفضل أداء في مشكلة غموض معنى الكلمة.ومع ذلك، فإن عدم توفر إحساس كبير مشروح بالنسبة للعديد من اللغات منخفضة الموارد يجعل هذه الأساليب غير قابل للتطبيق لها في الممارسة العملية.في هذه الورقة، نقوم بتخفيف هذه المشكلة
تفسير محتمل للأداء المثير للإعجاب في ما قبل التدريب اللغوي المصنوع (MLM) هو أن هذه النماذج تعلمت أن تمثل الهياكل النحوية السائدة في خطوط أنابيب NLP الكلاسيكية. في هذه الورقة، نقترح شرحا مختلفا: تنجح MLMS على مهام المصب بالكامل تقريبا بسبب قدرتها على