في الآونة الأخيرة، جادل بأن نماذج تشفير التشفير يمكن أن تكون أكثر تفسيرا عن طريق استبدال وظيفة SoftMax بالاهتمام بمتغيراتها المتناقضة. في هذا العمل، نقدم رواية، وسيلة بسيطة لتحقيق Sparsity في الانتباه: استبدلنا تنشيط SoftMax مع Relu، وإظهار أن Sparsity يخرج بشكل طبيعي من مثل هذه الصياغة. يتم تحقيق استقرار التدريب بطبقة تطبيع إما إما بتهفية متخصصة أو وظيفة Gating إضافية. إن نموذجنا، الذي نسميه الاهتمام الخطي المعتمد (RELA)، سهل التنفيذ وأكثر كفاءة من آليات الاهتمام المتناقش سابقا سابقا. نحن نطبق RELLA إلى المحولات وإجراء تجارب على خمس مهام ترجمة آلية. recra تحقق أداء الترجمة مماثل للعديد من خطوط الأساس القوية، مع سرعة التدريب وتشكيل سرعة مماثلة للاهتمام الفانيليا. يوضح تحليلنا أن RELLA تقدم معدل مرتفع للغاية وتنوع الرأس، والاهتمام الصافي الناجم عن تحقيق دقة أفضل فيما يتعلق بمحاذاة الكلمة المستهدفة المصدر من النماذج القائمة على Softmax مؤخرا. تتعلم رؤساء RELA بشكل فعال أيضا حضور أي شيء (I.E. أطفئ ") لبعض الاستفسارات، وهو أمر غير ممكن مع بدائل Softmax Sparsified.
Recently, it has been argued that encoder-decoder models can be made more interpretable by replacing the softmax function in the attention with its sparse variants. In this work, we introduce a novel, simple method for achieving sparsity in attention: we replace the softmax activation with a ReLU, and show that sparsity naturally emerges from such a formulation. Training stability is achieved with layer normalization with either a specialized initialization or an additional gating function. Our model, which we call Rectified Linear Attention (ReLA), is easy to implement and more efficient than previously proposed sparse attention mechanisms. We apply ReLA to the Transformer and conduct experiments on five machine translation tasks. ReLA achieves translation performance comparable to several strong baselines, with training and decoding speed similar to that of the vanilla attention. Our analysis shows that ReLA delivers high sparsity rate and head diversity, and the induced cross attention achieves better accuracy with respect to source-target word alignment than recent sparsified softmax-based models. Intriguingly, ReLA heads also learn to attend to nothing (i.e. switch off') for some queries, which is not possible with sparsified softmax alternatives.
المراجع المستخدمة
https://aclanthology.org/
تم اعتماد اهتمام الذات مؤخرا لمجموعة واسعة من مشاكل النمذجة التسلسلية. على الرغم من فعاليته، فإن اهتمام الذات يعاني من حساب التربيعي ومتطلبات الذاكرة فيما يتعلق بطول التسلسل. تركز النهج الناجحة للحد من هذا التعقيد على حضور النوافذ المنزلق المحلية أو
تقوم المشفر المزدح المجرقة بإجراء استرجاع من خلال ترميز المستندات والاستعلامات في متجهات كثيفة منخفضة الأبعاد، حيث سجل كل وثيقة عن طريق المنتج الداخلي مع الاستعلام.نحن نبحث في قدرة هذه الهندسة المعمارية بالنسبة إلى نماذج كيس من الكلمات المتفرقة والشب
لالتقاط بنية الرسم البياني الدلالي من النص الخام، يتم بناء معظم طرق التلخيص الموجودة على GNNS مع نموذج مدرب مسبقا.ومع ذلك، فإن هذه الأساليب تعاني من إجراءات مرهقة وحسابات غير فعالة وثائق نصية طويلة.لتخفيف هذه المشكلات، تقترح هذه الورقة HETFORMER، وهو
في هذا العمل، نقوم بإجراء تحقيق شامل على إحدى المركزيات من أنظمة الترجمة الآلية الحديثة: آلية اهتمام مفوض الترم التشفير.بدافع من مفهوم محاذاة الدرجة الأولى، فإننا نقدم آلية الاهتمام (الصليب) من خلال اتصال متكرر، مما يسمح بالوصول المباشر إلى قرارات ال
تعد العديد من المهام التسلسلية للتسلسل في معالجة اللغات الطبيعية رتيبة تقريبا في المحاذاة بين المصدر وتسلسل المستهدف، وقد سهل العمل السابق أو إنفاذ سلوك الانتباه الرعبي عبر وظائف الاهتمام المتخصص أو المحاكمة.في هذا العمل، نقدم وظيفة خسارة رتابة متواف