نحن نبذة عن مشكلة تعزيز متانة النموذج من خلال التنظيم. على وجه التحديد، نركز على الأساليب التي تنظم الفرق الخلفي النموذجي بين المدخلات النظيفة والصاخبة. من الناحية النظرية، نحن نقدم اتصالا بطريقتين حديثين، وانتظام جاكوبي والتدريب الخصم الافتراضي، في إطار هذا الإطار. بالإضافة إلى ذلك، نعيد بتعميم التنظيم التفاضلي الخلفي لعائلة الاختلافات F وتوصيف الإطار العام من حيث مصفوفة الجاكوبيان. تجريبيا، قارنا هذه التحسينات وتدريب بيرت القياسي على مجموعة متنوعة من المهام لتوفير ملف شامل لتأثيرها على تعميم النموذج. لكلا الإعدادات ذات الإشراف بالكامل وشبه الإشراف، نوضح أن تنظيم الفرق الخلفي الذي يمكن أن يؤدي إلى اختلاف F إلى متانة نموذج جيد. على وجه الخصوص، مع اختلاف F-Supplgence مناسب، يمكن أن يحقق نموذج BERT-BASE تعميما قابلا للمقارنة كظرفي كبير لسيناريوهات التحول في المجال والمواد والمناطق، مما يشير إلى إمكانات كبيرة للإطار المقترح لتعزيز متانة نموذج NLP.
We address the problem of enhancing model robustness through regularization. Specifically, we focus on methods that regularize the model posterior difference between clean and noisy inputs. Theoretically, we provide a connection of two recent methods, Jacobian Regularization and Virtual Adversarial Training, under this framework. Additionally, we generalize the posterior differential regularization to the family of f-divergences and characterize the overall framework in terms of the Jacobian matrix. Empirically, we compare those regularizations and standard BERT training on a diverse set of tasks to provide a comprehensive profile of their effect on model generalization. For both fully supervised and semi-supervised settings, we show that regularizing the posterior difference with f-divergence can result in well-improved model robustness. In particular, with a proper f-divergence, a BERT-base model can achieve comparable generalization as its BERT-large counterpart for in-domain, adversarial and domain shift scenarios, indicating the great potential of the proposed framework for enhancing NLP model robustness.
References used
https://aclanthology.org/
While aggregate performance metrics can generate valuable insights at a large scale, their dominance means more complex and nuanced language phenomena, such as vagueness, may be overlooked. Focusing on vague terms (e.g. sunny, cloudy, young, etc.) we
Continual learning has become increasingly important as it enables NLP models to constantly learn and gain knowledge over time. Previous continual learning methods are mainly designed to preserve knowledge from previous tasks, without much emphasis o
Fine-tuning pre-trained language models suchas BERT has become a common practice dom-inating leaderboards across various NLP tasks.Despite its recent success and wide adoption,this process is unstable when there are onlya small number of training sam
Multilingual Neural Machine Translation (NMT) enables one model to serve all translation directions, including ones that are unseen during training, i.e. zero-shot translation. Despite being theoretically attractive, current models often produce low
The robustness and security of natural language processing (NLP) models are significantly important in real-world applications. In the context of text classification tasks, adversarial examples can be designed by substituting words with synonyms unde