تحسنت نماذج اللغة المدربة مسبقا للمحولات بشكل كبير أداء مختلف مهام معالجة اللغة الطبيعية (NLP) في السنوات الأخيرة. في حين أن هذه النماذج فعالة وسائدة، فإن هذه النماذج عادة ما تكون كبيرة كبيرة لسيناريوهات النشر المحدودة للمورد. وهكذا تعمل مؤشر ترابط البحث على تطبيق تقنيات تشذيب الشبكة بموجب النموذج المؤمني ثم Finetune الذي تم تبنيه على نطاق واسع في NLP. ومع ذلك، فإن نتائج التذكيرية الحالية على المحولات القياسية، مثل بيرت، ليست ملحوظة مثل النتائج التقليم في أدب الشبكات العصبية التنافعية (CNNS). على وجه الخصوص، تنص الحكمة الشائعة في تشذيم CNN على أن تقنية تشذيب متناثرة يضغط نموذجا أكثر من ذلك الذي تم الحصول عليه عن طريق تقليل عدد القنوات والطبقات، بينما تعمل الأعمال الموجودة على تشذيب متفرق من بيرت نتائج أدنى من نظرائها الصغير الكثيف مثل Tinybert. في هذا العمل، نهدف إلى ملء هذه الفجوة من خلال دراسة كيفية نقل المعرفة وفقدت خلال عملية القطار المسبق واللغمة الدقيقة، واقتراح عملية تشذيب باري المعرفة التي تحقق نتائج متفوقة بشكل كبير من الأدب الموجود. نعرض لأول مرة أن تشذيب متفرق يضغط نموذج بيرت أكثر بكثير من تقليل عدد القنوات والطبقات. تشير التجارب في مجموعات بيانات متعددة من مؤشر الغراء إلى أن أسلوبنا تتفوق على المنافسين الرائدين مع ضغط وزن / يتخبط 20 مرة وفقدان مهملا في دقة التنبؤ.
Transformer-based pre-trained language models have significantly improved the performance of various natural language processing (NLP) tasks in the recent years. While effective and prevalent, these models are usually prohibitively large for resource-limited deployment scenarios. A thread of research has thus been working on applying network pruning techniques under the pretrain-then-finetune paradigm widely adopted in NLP. However, the existing pruning results on benchmark transformers, such as BERT, are not as remarkable as the pruning results in the literature of convolutional neural networks (CNNs). In particular, common wisdom in pruning CNN states that sparse pruning technique compresses a model more than that obtained by reducing number of channels and layers, while existing works on sparse pruning of BERT yields inferior results than its small-dense counterparts such as TinyBERT. In this work, we aim to fill this gap by studying how knowledge are transferred and lost during the pre-train, fine-tune, and pruning process, and proposing a knowledge-aware sparse pruning process that achieves significantly superior results than existing literature. We show for the first time that sparse pruning compresses a BERT model significantly more than reducing its number of channels and layers. Experiments on multiple data sets of GLUE benchmark show that our method outperforms the leading competitors with a 20-times weight/FLOPs compression and neglectable loss in prediction accuracy.
المراجع المستخدمة
https://aclanthology.org/
أظهر العمل الحديث أن نماذج لغة التدريب المسبق التدريبية يمكن أن تعزز الأداء عند التكيف إلى مجال جديد. ومع ذلك، فإن التكاليف المرتبطة بالتدريب المسبق رفع سؤال مهم: بالنظر إلى ميزانية ثابتة، ما هي الخطوات التي يجب أن يستغرق ممارس NLP لتعظيم الأداء؟ في
التدريب التكميلي على مهام البيانات المتوسطة الواسعة (المقابلة) هي تقنية مطبقة على نطاق واسع، والتي تلتزم أولا نماذج اللغة المحددة مسبقا في مهمة وسيطة من قبل على المهمة المستهدفة المهم.في حين أن الطفولة قادرة على تحسين أداء نماذج اللغة المحددة مسبقا،
نقدم DynaBench، وهي منصة مفتوحة المصدر لإنشاء مجموعة البيانات الديناميكية ومعيار النموذج.يعمل Dynabench في متصفح ويب ويدعم إنشاء DataSet Indictet من الإنسان والنموذج في الحلقة: يسعى المحلقون إلى إنشاء أمثلة سيتطلب من النموذج المستهدف، لكن شخص آخر لن
المحولات هي شبكة عصبية مقرها الانتباه، والتي تتكون من اثنين من المواد الغذائية، وهي شبكة انتباه الذات (SAN) وشبكة الأعلاف إلى الأمام (FFN). يستكشف البحوث الحالية لتعزيز اثنين من الطبقة الفرعية بشكل منفصل لتحسين القدرة على محول تمثيل النص. في هذه الور
نحن غالبا ما نستخدم الاضطرابات لتنظيم النماذج العصبية.بالنسبة للكشف عن المشفر العصبي، طبقت الدراسات السابقة أخذ العينات المجدولة (بنغيو وآخرون.، 2015) والاضطرابات الخصومة (SATO et al.، 2019) كشراءات ولكن هذه الطرق تتطلب وقتا حسابيا كبيرا.وبالتالي، فإ