Unidrop: تقنية بسيطة ولكنها فعالة لتحسين المحولات دون تكلفة إضافية


الملخص بالعربية

تحقق بنية المحولات نجاحا كبيرا في مهام معالجة اللغة الطبيعية الوفيرة. إن المعلمة الزائدة لطراز المحول قد حفز الكثير من الأعمال لتخفيف حيز التنقل عن العروض المتفوقة. مع بعض الاستكشافات، نجد تقنيات بسيطة مثل التسرب، يمكن أن تعزز أداء النموذج بشكل كبير مع تصميم دقيق. لذلك، في هذه الورقة، ندمج أساليب التسرب المختلفة في تدريب نماذج المحولات. على وجه التحديد، نقترح نهجا يدعى UNIDROP لتوحيد ثلاث تقنيات إسقاط مختلفة من الحبوب الجميلة إلى الحبوب الخشنة، I.E.، ميزة التسرب، التسرب الهيكل، وتسرب البيانات. من الناحية النظرية، نوضح أن هذه التسربات الثلاثة تلعب أدوارا مختلفة من وجهات نظر التنظيم. تجريبيا، نقوم بإجراء تجارب على كل من مجموعات بيانات الترجمة الآلية العصبية وتصنيف النص. تشير النتائج الواسعة إلى أن المحول مع UNIDROP يمكن أن تحقق حوالي 1.5 لتحسين بلو على مهام الترجمة IWSLT14، ودقة أفضل للتصنيف حتى باستخدام روبرتا قوي مدرب مسبقا كعمود العمود الفقري.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث