تهدف آلية الخروج المبكر إلى تسريع سرعة الاستدلال من نماذج اللغة المدربة مسبقا على نطاق واسع. الفكرة الأساسية هي الخروج مبكرا دون المرور من خلال كل طبقات الاستدلال في مرحلة الاستدلال. لإجراء تنبؤات دقيقة لمهام المصب، ينبغي النظر في المعلومات اللغوية الهرمية المدمجة في جميع الطبقات بشكل مشترك. ومع ذلك، فقد تقتصر الكثير من الأبحاث الآن على استخدام التمثيلات المحلية لطبقة الخروج. هذا العلاج يفقد حتما معلومات عن الطبقات السابقة غير المستخدمة وكذلك الميزات الرفيعة المستوى المضمنة في الطبقات المستقبلية، مما يؤدي إلى الأداء دون الأمثل. لمعالجة هذه المشكلة، نقترح طريقة مستقبلية جديدة جديدة لإجراء تنبؤات شاملة من منظور عالمي. نأخذ أولا في الاعتبار جميع المعلومات اللغوية المضمنة في الطبقات السابقة، ثم اتخذ خطوة أخرى لإشراك المعلومات المستقبلية التي لا يمكن الوصول إليها في الأصل للتنبؤات. توضح تجارب واسعة أن أسلوبنا تتفوق على أساليب الخروج المبكر السابقة من هامش كبير، مما يؤدي إلى أداء أفضل وقوي.
Early exit mechanism aims to accelerate the inference speed of large-scale pre-trained language models. The essential idea is to exit early without passing through all the inference layers at the inference stage. To make accurate predictions for downstream tasks, the hierarchical linguistic information embedded in all layers should be jointly considered. However, much of the research up to now has been limited to use local representations of the exit layer. Such treatment inevitably loses information of the unused past layers as well as the high-level features embedded in future layers, leading to sub-optimal performance. To address this issue, we propose a novel Past-Future method to make comprehensive predictions from a global perspective. We first take into consideration all the linguistic information embedded in the past layers and then take a further step to engage the future information which is originally inaccessible for predictions. Extensive experiments demonstrate that our method outperforms previous early exit methods by a large margin, yielding better and robust performance.
References used
https://aclanthology.org/
Pre-trained language models (PrLM) have to carefully manage input units when training on a very large text with a vocabulary consisting of millions of words. Previous works have shown that incorporating span-level information over consecutive words i
Can pre-trained BERT for one language and GPT for another be glued together to translate texts? Self-supervised training using only monolingual data has led to the success of pre-trained (masked) language models in many NLP tasks. However, directly c
Commonsense reasoning benchmarks have been largely solved by fine-tuning language models. The downside is that fine-tuning may cause models to overfit to task-specific data and thereby forget their knowledge gained during pre-training. Recent works o
We present two novel unsupervised methods for eliminating toxicity in text. Our first method combines two recent ideas: (1) guidance of the generation process with small style-conditional language models and (2) use of paraphrasing models to perform
Recently, fine-tuning pre-trained language models (e.g., multilingual BERT) to downstream cross-lingual tasks has shown promising results. However, the fine-tuning process inevitably changes the parameters of the pre-trained model and weakens its cro