ترغب بنشر مسار تعليمي؟ اضغط هنا

التنظيم التفاضلي الخلفي مع اختلاف F لتحسين النموذج

Posterior Differential Regularization with f-divergence for Improving Model Robustness

357   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن نبذة عن مشكلة تعزيز متانة النموذج من خلال التنظيم. على وجه التحديد، نركز على الأساليب التي تنظم الفرق الخلفي النموذجي بين المدخلات النظيفة والصاخبة. من الناحية النظرية، نحن نقدم اتصالا بطريقتين حديثين، وانتظام جاكوبي والتدريب الخصم الافتراضي، في إطار هذا الإطار. بالإضافة إلى ذلك، نعيد بتعميم التنظيم التفاضلي الخلفي لعائلة الاختلافات F وتوصيف الإطار العام من حيث مصفوفة الجاكوبيان. تجريبيا، قارنا هذه التحسينات وتدريب بيرت القياسي على مجموعة متنوعة من المهام لتوفير ملف شامل لتأثيرها على تعميم النموذج. لكلا الإعدادات ذات الإشراف بالكامل وشبه الإشراف، نوضح أن تنظيم الفرق الخلفي الذي يمكن أن يؤدي إلى اختلاف F إلى متانة نموذج جيد. على وجه الخصوص، مع اختلاف F-Supplgence مناسب، يمكن أن يحقق نموذج BERT-BASE تعميما قابلا للمقارنة كظرفي كبير لسيناريوهات التحول في المجال والمواد والمناطق، مما يشير إلى إمكانات كبيرة للإطار المقترح لتعزيز متانة نموذج NLP.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في حين أن مقاييس الأداء الكلية يمكن أن تولد رؤى قيمة على نطاق واسع، إلا أن هيمنتها تعني ظاهرة أكثر تعقيدا وشغنا، مثل الغموض، قد يتم التغاضي عنها.التركيز على الشروط الغامضة (على سبيل المثال مشمس، غائم، شاب، إلخ) نحن تفحص سلوك النماذج المدرجة بشكل مريئ ي والنصوص فقط، وإيجاد الاختلافات المنهجية من الأحكام الإنسانية حتى عندما يكون الأداء العام للنموذج مرتفعا.للمساعدة في تفسير هذا التباين، نحدد افتراضين أدلى به مجموعات البيانات والنماذج التي تم فحصها، وتسترشد بفلسفة الغموض، عزل الحالات التي لا تعقد فيها.
أصبح التعلم المستمر أمرا مهما بشكل متزايد لأنه تمكن نماذج NLP للتعلم باستمرار واكتساب المعرفة بمرور الوقت. يتم تصميم أساليب التعلم المستمرة السابقة بشكل أساسي للحفاظ على المعرفة من المهام السابقة، دون التركيز كثيرا على كيفية تعميم النماذج بشكل جيد لم هام جديدة. في هذا العمل، نقترح طريقة التنظيم القائم على معلومات المعلومات للتعلم المستمر حول تصنيف النص. أسلوبنا المقترح أولا DESENTANGLES نص مساحات مخفية في تمثيلات عامة لجميع المهام والتمثيلات الخاصة بكل مهمة فردية، ومزيد من تنظيم هذه التمثيلات بشكل مختلف بشكل أفضل تقييد المعرفة المطلوبة للتعميم. نحن نقدم أيضا مهام مساعدة بسيطة: التنبؤ بالجمل التالي وتنبؤ المهام معرف المهام، لتعلم مساحات تمثيلية عامة ومحددة أفضل. توضح التجارب التي أجريت على معايير واسعة النطاق فعالية طريقتنا في مهام تصنيف النص المستمر مع تسلسلات مختلفة وأطوال فوق خطوط الأساس الحديثة. لقد أصدرنا علنا ​​رمزنا في https://github.com/gt-salt/idbr.
نماذج اللغات المدربة مسبقا بشكل جيد، أصبحت نماذج اللغات المدربة مسبقا من Suchas Bertboard المتصدرين المشترك في إدارة الديم عبر مختلف مهام NLP. نجاحها الأخير والاعتماد الواسع، هذه العملية غير مستقر عندما يكون هناك عدد صغير فقط من عينات التدريب المتاحة . غالبا ما تعكس هذه العملية الحساسية للبذور العشوائية. في هذا PA-PER، نقترح معالجة هذه المشكلة بموجب خاصية استقرار الضوضاء للشبكات العميقة، والتي يتم التحقيق فيها في الأدب الحديث (Aroraet al.، 2018؛ سانيال وآخرون، 2020). على وجه التحديد، نقدم طريقة منتظمة فعالة وفعالة لتحسين ضبط الدقيقة على NLPTASCS، المشار إليها إلى Aslayer-WisenoiseStablegularizulation (LNSR). نقوم بتوسيع juo-ries حول إضافة الضوضاء إلى المدخلات و provethat لدينا طريقة تعطي stabler منتظمة. نحن نقدم دليلا داعما عن طريق تأكيد السابقين بشكل كبير أن الأمهات الجيدة تظهر حساسية منخفضة للضوضاء أن ضبط الضوضاء مع LNSR معارض LNSR بوضوح تعميم التعميم والاستقرار. علاوة على ذلك، توضح طريقةنا أيضا المزايا أكثر من الخوارزميات الحديثة بما في ذلك L2-SP (لي وآخرون، 2018)، خلط (Lee et al.، 2020) و Smart (Jiang et al.، 20)
تمكن الترجمة الآلية العصبية متعددة اللغات (NMT) نموذج واحد لخدمة جميع اتجاهات الترجمة، بما في ذلك تلك التي هي غير مرئية أثناء التدريب، I.E. Zero-Shot الترجمة. على الرغم من أن النماذج الحالية جذابة من الناحية النظرية غالبا ما تنتج ترجمات منخفضة الجودة - لا تفشل عادة في إنتاج مخرجات باللغة المستهدفة الصحيحة. في هذا العمل، نلاحظ أن الترجمة المستهلكة المستهدفة هي المهيمنة حتى في أنظمة قوية متعددة اللغات، تدربت على كورسا متعددة اللغات الضخمة. لمعالجة هذه المشكلة، نقترح نهج مشترك لتنظيم نماذج NMT على مستوى التمثيل ومستوى التدرج. في مستوى التمثيل، نستفيد مهمة التنبؤ باللغة المستهدفة المساعدة لتنظيم مخرجات فك ترميز الكفر للاحتفاظ بمعلومات حول اللغة المستهدفة. عند مستوى التدرج، نستفيد كمية صغيرة من البيانات المباشرة (بآلاف أزواج الجملة) لتنظيم تدرجات النماذج. توضح نتائجنا أن نهجنا فعال للغاية في حد سواء تقليل حوادث الترجمة المستهدفة وتحسين أداء الترجمة الصفرية بواسطة +5.59 و +10.38 بلو على مجموعات بيانات WMT و OPUS على التوالي. علاوة على ذلك، تظهر التجارب أن طريقتنا تعمل أيضا بشكل جيد عندما لا يتوفر كمية صغيرة من البيانات المباشرة.
تعد نماذج معالجة وأمن معالجة اللغة الطبيعية (NLP) مهمة بشكل ملحوظ في تطبيقات العالم الحقيقي. في سياق مهام تصنيف النص، يمكن تصميم أمثلة الخصومة من خلال استبدال الكلمات مع المرادفات تحت بعض القيود الدلالية والمنظمات الأساسية، بحيث يكون نموذج مدرب جيدا سيعطي تنبؤا خاطئا. لذلك، من الأهمية بمكان تطوير تقنيات لتوفير ضمان قوي وقضايا ضد هذه الهجمات. في هذه الورقة، نقترح WordDP لتحقيق متانة مصدقة ضد استبدال الكلمات في تصنيف النص عن طريق الخصوصية التفاضلية (DP). نحدد العلاقة بين موانئ دبي والمودة القومية لأول مرة في المجال النصي واقتراح خوارزمية قائمة على الآلية المفاهيمية التي تعتمد على الآلية لتحقيق القابة رسميا. ونحن نقدم كذلك آلية أسيانية محاكاة عملية لها استنتاج فعال مع متانة معتمدة. نحن لا نقدم فقط اشتقاق تحليلي صارم للحالة المعتمدة ولكن أيضا مقارنة فائدة WordDP أيضا بشكل تجريبي مع خوارزميات الدفاع الحالية. تظهر النتائج أن WordDP تحقق دقة أعلى وأكثر من 30x تحسن كفاءة على آلية متانة حديثة معتمدة في مهام تصنيف النص النموذجي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا