عملت نماذج اللغة المحددة من قبل العمود الفقري للعديد من النتائج NLP الحديثة. هذه النماذج كبيرة ومكلفة لتدريب. يشير العمل الحديث إلى أن الاحيلاء المستمر على البيانات الخاصة بمهام المهام يستحق هذا الجهد كقاولات محدبة لتحسين الأداء في مهام المصب. نستكشف بدائل لحقوق المهام ذات المستوى الشامل من النماذج اللغوية من خلال استخدام وحدات محول، ونهج فعال مع المعلمة لنقل التعلم. نجد أن محاولات محول يستند إلى تحقيق نتائج مماثلة لإحاطاء المهام المحدد أثناء استخدام جزء بسيط من المعلمات التدريبية الشاملة. نحن نستكشف بشكل مباشر عن الاستخدام المباشر للمحولات دون احتجاج ويجد أن الضبط الدقيق المباشر ينفذ في الغالب على قدم المساواة مع نماذج محول مسبقا، ومتناقض مع الفوائد المقترحة سابقا للمحاكاة المستمرة في استراتيجيات ضبط دقيقة تماما. أخيرا، نقوم بإجراء دراسة الاجتثاث حول الاحتجاج بالتكيف مع المهام للتحقيق في كيفية إجراء إعدادات مختلفة من ضغطات HyperParameter فعالية الاحتجاج.
Pretrained language models have served as the backbone for many state-of-the-art NLP results. These models are large and expensive to train. Recent work suggests that continued pretraining on task-specific data is worth the effort as pretraining leads to improved performance on downstream tasks. We explore alternatives to full-scale task-specific pretraining of language models through the use of adapter modules, a parameter-efficient approach to transfer learning. We find that adapter-based pretraining is able to achieve comparable results to task-specific pretraining while using a fraction of the overall trainable parameters. We further explore direct use of adapters without pretraining and find that the direct fine-tuning performs mostly on par with pretrained adapter models, contradicting previously proposed benefits of continual pretraining in full pretraining fine-tuning strategies. Lastly, we perform an ablation study on task-adaptive pretraining to investigate how different hyperparameter settings can change the effectiveness of the pretraining.
المراجع المستخدمة
https://aclanthology.org/