نماذج اللغات المدربة مسبقا بشكل جيد، أصبحت نماذج اللغات المدربة مسبقا من Suchas Bertboard المتصدرين المشترك في إدارة الديم عبر مختلف مهام NLP. نجاحها الأخير والاعتماد الواسع، هذه العملية غير مستقر عندما يكون هناك عدد صغير فقط من عينات التدريب المتاحة. غالبا ما تعكس هذه العملية الحساسية للبذور العشوائية. في هذا PA-PER، نقترح معالجة هذه المشكلة بموجب خاصية استقرار الضوضاء للشبكات العميقة، والتي يتم التحقيق فيها في الأدب الحديث (Aroraet al.، 2018؛ سانيال وآخرون، 2020). على وجه التحديد، نقدم طريقة منتظمة فعالة وفعالة لتحسين ضبط الدقيقة على NLPTASCS، المشار إليها إلى Aslayer-WisenoiseStablegularizulation (LNSR). نقوم بتوسيع juo-ries حول إضافة الضوضاء إلى المدخلات و provethat لدينا طريقة تعطي stabler منتظمة. نحن نقدم دليلا داعما عن طريق تأكيد السابقين بشكل كبير أن الأمهات الجيدة تظهر حساسية منخفضة للضوضاء أن ضبط الضوضاء مع LNSR معارض LNSR بوضوح تعميم التعميم والاستقرار. علاوة على ذلك، توضح طريقةنا أيضا المزايا أكثر من الخوارزميات الحديثة بما في ذلك L2-SP (لي وآخرون، 2018)، خلط (Lee et al.، 2020) و Smart (Jiang et al.، 20)
Fine-tuning pre-trained language models suchas BERT has become a common practice dom-inating leaderboards across various NLP tasks.Despite its recent success and wide adoption,this process is unstable when there are onlya small number of training samples available.The brittleness of this process is often reflectedby the sensitivity to random seeds. In this pa-per, we propose to tackle this problem basedon the noise stability property of deep nets,which is investigated in recent literature (Aroraet al., 2018; Sanyal et al., 2020). Specifically,we introduce a novel and effective regulariza-tion method to improve fine-tuning on NLPtasks, referred to asLayer-wiseNoiseStabilityRegularization (LNSR). We extend the theo-ries about adding noise to the input and provethat our method gives a stabler regularizationeffect. We provide supportive evidence by ex-perimentally confirming that well-performingmodels show a low sensitivity to noise andfine-tuning with LNSR exhibits clearly bet-ter generalizability and stability. Furthermore,our method also demonstrates advantages overother state-of-the-art algorithms including L2-SP (Li et al., 2018), Mixout (Lee et al., 2020)and SMART (Jiang et al., 20)
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نصف نظامنا المستخدم في مهمة Semeval 2021 7: hahackathon: الكشف عن الفكاهة والجريمة.استخدمنا نهجا بسيطا للضبط باستخدام نماذج لغة مدربة مسبقا مختلفة (PLMS) لتقييم أدائها للكشف عن الفكاهة والجريمة.بالنسبة لمهام الانحدار، بلغنا متوسط عدد ا
نحن نبذة عن مشكلة تعزيز متانة النموذج من خلال التنظيم. على وجه التحديد، نركز على الأساليب التي تنظم الفرق الخلفي النموذجي بين المدخلات النظيفة والصاخبة. من الناحية النظرية، نحن نقدم اتصالا بطريقتين حديثين، وانتظام جاكوبي والتدريب الخصم الافتراضي، في
النماذج الخاضعة للإشراف المستمرة تحظى بشعبية كبيرة بالنسبة لاستخراج العلاقة لأنه يمكننا الحصول على كمية كبيرة من البيانات التدريبية باستخدام طريقة الإشراف البعيدة دون شرح بشري.في الإشراف البعيد، تعتبر الجملة بمثابة مصدر Tuple إذا كانت الجملة تحتوي عل
تقدم هذه الورقة تقديم Duluthnlp إلى المهمة 7 من مسابقة Semeval 2021 بشأن الكشف عن الفكاهة والجريمة تصنيفها.في ذلك، نوضح النهج المستخدم لتدريب النموذج مع عملية ضبط النموذج الخاص بنا في الحصول على النتائج.ونحن نركز على الكشف عن الفكاهة والتصنيف والتصني
يمكن أن تصدر نماذج الموضوع العصبي أو استبدال مدخلات كيس الكلمات مع التمثيلات المستفادة من نماذج التنبؤ بكلمة التنبؤ المدربة مسبقا مسبقا. تتمثل إحدى فائدة واحدة عند استخدام التمثيلات من النماذج متعددة اللغات هي أنها تسهل نمذجة موضوع الصلاع اللاحق للصف