أظهرت المحولات أداء محسنة عند مقارنتها بالبنية السابقة لمعالجة التسلسل مثل RNNS.على الرغم من مكاسب أدائها الكبيرة، كما اقترح مؤخرا، فإن النموذج باهظ الثمن بشكل حسابي للتدريب ومع ميزانية معلمة عالية.في ضوء هذا، نستكشف أساليب تقاسم المعلمات في المحولات بتركيز محدد على النماذج الإدارية.نحن نقوم بإجراء تحليل لأساليب تقاسم / تخفيض المعلمات المختلفة وتطوير النموذج الفرعي.يجمع نموذجنا بين مشاركة المعلمات على غرار ساندويتش، مما يتغلب على مشاركة المعلمة الساذجة عبر الطبقات في نماذج توليدية، وتعامل التضمين الذاتي الذاتي (آمن).تشير التجارب على الترجمة الآلية، وإظهار التلخيص المبشور ونمذجة اللغة أن العنصر الفرعي يمكن أن يتفوق على المحول حتى عند استخدام المعلمات أقل بكثير.
Transformers have shown improved performance when compared to previous architectures for sequence processing such as RNNs. Despite their sizeable performance gains, as recently suggested, the model is computationally expensive to train and with a high parameter budget. In light of this, we explore parameter-sharing methods in Transformers with a specific focus on generative models. We perform an analysis of different parameter sharing/reduction methods and develop the Subformer. Our model combines sandwich-style parameter sharing, which overcomes naive cross-layer parameter sharing in generative models, and self-attentive embedding factorization (SAFE). Experiments on machine translation, abstractive summarization and language modeling show that the Subformer can outperform the Transformer even when using significantly fewer parameters.
المراجع المستخدمة
https://aclanthology.org/
يعالج ملء القالب عموما من قبل خط أنابيب لنظمين تحت إشراف منفصلين - واحدة لاستخراج الدوران وآخر للاعتراف بالقوالب / الحدث.نظرا لأن خطوط الأنابيب تنظر في الأحداث بمعزل، فيمكنها أن تعاني من انتشار الأخطاء.نقدم إطارا يعتمد على المحولات الإندانية الطرفية
في عقود تقاسم الإنتاج في مجال إنتاج النفط والغاز تسترد الشركة المستثمرة تكاليفها المتكبدة خلال مراحل الاستكشاف والتطوير والإنتاج عند اكتشاف الإنتاج التجاري, وذلك من خلال تخصيص قيمة نسبة محددة من إنتاج كل فترة مالية للشركة لاسترداد تكاليفها. وبسبب اخت
هناك دلالات شائعة مشتركة عبر النصوص والصور.بالنظر إلى الجملة في لغة مصدر، ما إذا كان يصور المشهد المرئي يساعد الترجمة في لغة مستهدفة؟تتطلب طرق ترجمة الآلات العصبية متعددة الوسائط المتعددة (MNMT) ثلاثة توائم من جملة ثنائية اللغة - صورة للتدريب وشرائط
جذبت الكشف عن المشاعر من وظائف وسائل التواصل الاجتماعي اهتماما ملحوظا من مجتمع معالجة اللغة الطبيعية (NLP) في السنوات الأخيرة.تختلف طرق الحصول على ملصقات ذهبية لتدريب واختبار أنظمة الكشف عن المشاعر التلقائية بشكل كبير من دراسة واحدة إلى أخرى، وتشكل م
حتى الآن، اعتمدت معظم نماذج التلخيص المذهلة على متغيرات من احتمال السجل السلبي (NLL) كهدف تدريبهم. في بعض الحالات، تمت إضافة التعلم التعزيز لتدريب النماذج بهدف أقرب إلى تدابير التقييم الخاصة بهم (مثل Rouge). ومع ذلك، فإن وظيفة المكافآت التي سيتم استخ