تحقق بنية المحولات نجاحا كبيرا في مهام معالجة اللغة الطبيعية الوفيرة. إن المعلمة الزائدة لطراز المحول قد حفز الكثير من الأعمال لتخفيف حيز التنقل عن العروض المتفوقة. مع بعض الاستكشافات، نجد تقنيات بسيطة مثل التسرب، يمكن أن تعزز أداء النموذج بشكل كبير مع تصميم دقيق. لذلك، في هذه الورقة، ندمج أساليب التسرب المختلفة في تدريب نماذج المحولات. على وجه التحديد، نقترح نهجا يدعى UNIDROP لتوحيد ثلاث تقنيات إسقاط مختلفة من الحبوب الجميلة إلى الحبوب الخشنة، I.E.، ميزة التسرب، التسرب الهيكل، وتسرب البيانات. من الناحية النظرية، نوضح أن هذه التسربات الثلاثة تلعب أدوارا مختلفة من وجهات نظر التنظيم. تجريبيا، نقوم بإجراء تجارب على كل من مجموعات بيانات الترجمة الآلية العصبية وتصنيف النص. تشير النتائج الواسعة إلى أن المحول مع UNIDROP يمكن أن تحقق حوالي 1.5 لتحسين بلو على مهام الترجمة IWSLT14، ودقة أفضل للتصنيف حتى باستخدام روبرتا قوي مدرب مسبقا كعمود العمود الفقري.
Transformer architecture achieves great success in abundant natural language processing tasks. The over-parameterization of the Transformer model has motivated plenty of works to alleviate its overfitting for superior performances. With some explorations, we find simple techniques such as dropout, can greatly boost model performance with a careful design. Therefore, in this paper, we integrate different dropout techniques into the training of Transformer models. Specifically, we propose an approach named UniDrop to unites three different dropout techniques from fine-grain to coarse-grain, i.e., feature dropout, structure dropout, and data dropout. Theoretically, we demonstrate that these three dropouts play different roles from regularization perspectives. Empirically, we conduct experiments on both neural machine translation and text classification benchmark datasets. Extensive results indicate that Transformer with UniDrop can achieve around 1.5 BLEU improvement on IWSLT14 translation tasks, and better accuracy for the classification even using strong pre-trained RoBERTa as backbone.
References used
https://aclanthology.org/
Sentence ordering is the task of arranging a given bag of sentences so as to maximise the coherence of the overall text. In this work, we propose a simple yet effective training method that improves the capacity of models to capture overall text cohe
Numeracy plays a key role in natural language understanding. However, existing NLP approaches, not only traditional word2vec approach or contextualized transformer-based language models, fail to learn numeracy. As the result, the performance of these
A real-world information extraction (IE) system for semi-structured document images often involves a long pipeline of multiple modules, whose complexity dramatically increases its development and maintenance cost. One can instead consider an end-to-e
Improving Transformer efficiency has become increasingly attractive recently. A wide range of methods has been proposed, e.g., pruning, quantization, new architectures and etc. But these methods are either sophisticated in implementation or dependent
In this study, we demonstrate the viability of deploying BERT-style models to AWS Lambda in a production environment. Since the freely available pre-trained models are too large to be deployed in this environment, we utilize knowledge distillation an