Adapterdrop: على كفاءة المحولات في المحولات


الملخص بالعربية

نماذج المحولات باهظة الثمن لحن النغمة، والبطيئة للتناسم، ولديها متطلبات تخزين كبيرة.تتناول النهج الحديثة هذه أوجه القصور عن طريق تدريب النماذج الأصغر، مما يقلل ديناميكيا حجم النموذج، وتدريب محولات الوزن الخفيف.في هذه الورقة، نقترح Adapterdrop، وإزالة محولات من طبقات محول أقل أثناء التدريب والاستدلال، مما يشتمل على المفاهيم من الاتجاهات الثلاثة.نظهر أن Adapterdrop يمكن أن تقلل ديناميكيا من العلامة الحسابية الحسابية عند إجراء الاستدلال على مهام متعددة في وقت واحد، مع انخفاض الحد الأدنى في عروض العمل.سنقوم بمزيد من المحولات من Adaperfusion، مما يحسن كفاءة الاستدلال مع الحفاظ على أداء العمل بالكامل.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث