Subformer: استكشاف تقاسم الوزن لكفاءة المعلمات في محولات التوليد


الملخص بالعربية

أظهرت المحولات أداء محسنة عند مقارنتها بالبنية السابقة لمعالجة التسلسل مثل RNNS.على الرغم من مكاسب أدائها الكبيرة، كما اقترح مؤخرا، فإن النموذج باهظ الثمن بشكل حسابي للتدريب ومع ميزانية معلمة عالية.في ضوء هذا، نستكشف أساليب تقاسم المعلمات في المحولات بتركيز محدد على النماذج الإدارية.نحن نقوم بإجراء تحليل لأساليب تقاسم / تخفيض المعلمات المختلفة وتطوير النموذج الفرعي.يجمع نموذجنا بين مشاركة المعلمات على غرار ساندويتش، مما يتغلب على مشاركة المعلمة الساذجة عبر الطبقات في نماذج توليدية، وتعامل التضمين الذاتي الذاتي (آمن).تشير التجارب على الترجمة الآلية، وإظهار التلخيص المبشور ونمذجة اللغة أن العنصر الفرعي يمكن أن يتفوق على المحول حتى عند استخدام المعلمات أقل بكثير.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث