نحن نبذة عن مشكلة تعزيز متانة النموذج من خلال التنظيم. على وجه التحديد، نركز على الأساليب التي تنظم الفرق الخلفي النموذجي بين المدخلات النظيفة والصاخبة. من الناحية النظرية، نحن نقدم اتصالا بطريقتين حديثين، وانتظام جاكوبي والتدريب الخصم الافتراضي، في إطار هذا الإطار. بالإضافة إلى ذلك، نعيد بتعميم التنظيم التفاضلي الخلفي لعائلة الاختلافات F وتوصيف الإطار العام من حيث مصفوفة الجاكوبيان. تجريبيا، قارنا هذه التحسينات وتدريب بيرت القياسي على مجموعة متنوعة من المهام لتوفير ملف شامل لتأثيرها على تعميم النموذج. لكلا الإعدادات ذات الإشراف بالكامل وشبه الإشراف، نوضح أن تنظيم الفرق الخلفي الذي يمكن أن يؤدي إلى اختلاف F إلى متانة نموذج جيد. على وجه الخصوص، مع اختلاف F-Supplgence مناسب، يمكن أن يحقق نموذج BERT-BASE تعميما قابلا للمقارنة كظرفي كبير لسيناريوهات التحول في المجال والمواد والمناطق، مما يشير إلى إمكانات كبيرة للإطار المقترح لتعزيز متانة نموذج NLP.
We address the problem of enhancing model robustness through regularization. Specifically, we focus on methods that regularize the model posterior difference between clean and noisy inputs. Theoretically, we provide a connection of two recent methods, Jacobian Regularization and Virtual Adversarial Training, under this framework. Additionally, we generalize the posterior differential regularization to the family of f-divergences and characterize the overall framework in terms of the Jacobian matrix. Empirically, we compare those regularizations and standard BERT training on a diverse set of tasks to provide a comprehensive profile of their effect on model generalization. For both fully supervised and semi-supervised settings, we show that regularizing the posterior difference with f-divergence can result in well-improved model robustness. In particular, with a proper f-divergence, a BERT-base model can achieve comparable generalization as its BERT-large counterpart for in-domain, adversarial and domain shift scenarios, indicating the great potential of the proposed framework for enhancing NLP model robustness.
المراجع المستخدمة
https://aclanthology.org/
في حين أن مقاييس الأداء الكلية يمكن أن تولد رؤى قيمة على نطاق واسع، إلا أن هيمنتها تعني ظاهرة أكثر تعقيدا وشغنا، مثل الغموض، قد يتم التغاضي عنها.التركيز على الشروط الغامضة (على سبيل المثال مشمس، غائم، شاب، إلخ) نحن تفحص سلوك النماذج المدرجة بشكل مريئ
أصبح التعلم المستمر أمرا مهما بشكل متزايد لأنه تمكن نماذج NLP للتعلم باستمرار واكتساب المعرفة بمرور الوقت. يتم تصميم أساليب التعلم المستمرة السابقة بشكل أساسي للحفاظ على المعرفة من المهام السابقة، دون التركيز كثيرا على كيفية تعميم النماذج بشكل جيد لم
نماذج اللغات المدربة مسبقا بشكل جيد، أصبحت نماذج اللغات المدربة مسبقا من Suchas Bertboard المتصدرين المشترك في إدارة الديم عبر مختلف مهام NLP. نجاحها الأخير والاعتماد الواسع، هذه العملية غير مستقر عندما يكون هناك عدد صغير فقط من عينات التدريب المتاحة
تمكن الترجمة الآلية العصبية متعددة اللغات (NMT) نموذج واحد لخدمة جميع اتجاهات الترجمة، بما في ذلك تلك التي هي غير مرئية أثناء التدريب، I.E. Zero-Shot الترجمة. على الرغم من أن النماذج الحالية جذابة من الناحية النظرية غالبا ما تنتج ترجمات منخفضة الجودة
تعد نماذج معالجة وأمن معالجة اللغة الطبيعية (NLP) مهمة بشكل ملحوظ في تطبيقات العالم الحقيقي. في سياق مهام تصنيف النص، يمكن تصميم أمثلة الخصومة من خلال استبدال الكلمات مع المرادفات تحت بعض القيود الدلالية والمنظمات الأساسية، بحيث يكون نموذج مدرب جيدا