عملت نماذج اللغة المحددة من قبل العمود الفقري للعديد من النتائج NLP الحديثة. هذه النماذج كبيرة ومكلفة لتدريب. يشير العمل الحديث إلى أن الاحيلاء المستمر على البيانات الخاصة بمهام المهام يستحق هذا الجهد كقاولات محدبة لتحسين الأداء في مهام المصب. نستكشف بدائل لحقوق المهام ذات المستوى الشامل من النماذج اللغوية من خلال استخدام وحدات محول، ونهج فعال مع المعلمة لنقل التعلم. نجد أن محاولات محول يستند إلى تحقيق نتائج مماثلة لإحاطاء المهام المحدد أثناء استخدام جزء بسيط من المعلمات التدريبية الشاملة. نحن نستكشف بشكل مباشر عن الاستخدام المباشر للمحولات دون احتجاج ويجد أن الضبط الدقيق المباشر ينفذ في الغالب على قدم المساواة مع نماذج محول مسبقا، ومتناقض مع الفوائد المقترحة سابقا للمحاكاة المستمرة في استراتيجيات ضبط دقيقة تماما. أخيرا، نقوم بإجراء دراسة الاجتثاث حول الاحتجاج بالتكيف مع المهام للتحقيق في كيفية إجراء إعدادات مختلفة من ضغطات HyperParameter فعالية الاحتجاج.
Pretrained language models have served as the backbone for many state-of-the-art NLP results. These models are large and expensive to train. Recent work suggests that continued pretraining on task-specific data is worth the effort as pretraining leads to improved performance on downstream tasks. We explore alternatives to full-scale task-specific pretraining of language models through the use of adapter modules, a parameter-efficient approach to transfer learning. We find that adapter-based pretraining is able to achieve comparable results to task-specific pretraining while using a fraction of the overall trainable parameters. We further explore direct use of adapters without pretraining and find that the direct fine-tuning performs mostly on par with pretrained adapter models, contradicting previously proposed benefits of continual pretraining in full pretraining fine-tuning strategies. Lastly, we perform an ablation study on task-adaptive pretraining to investigate how different hyperparameter settings can change the effectiveness of the pretraining.
References used
https://aclanthology.org/
When building machine translation systems, one often needs to make the best out of heterogeneous sets of parallel data in training, and to robustly handle inputs from unexpected domains in testing. This multi-domain scenario has attracted a lot of re
The uniform information density (UID) hypothesis posits a preference among language users for utterances structured such that information is distributed uniformly across a signal. While its implications on language production have been well explored,
We describe our two NMT systems submitted to the WMT2021 shared task in English-Czech news translation: CUNI-DocTransformer (document-level CUBBITT) and CUNI-Marian-Baselines. We improve the former with a better sentence-segmentation pre-processing a
Recent progress in language modeling has been driven not only by advances in neural architectures, but also through hardware and optimization improvements. In this paper, we revisit the neural probabilistic language model (NPLM) of Bengio et al. (200
Paraphrases refer to texts that convey the same meaning with different expression forms. Pivot-based methods, also known as the round-trip translation, have shown promising results in generating high-quality paraphrases. However, existing pivot-based