يجذب اهتمام الذات متعدد الرأس مؤخرا اهتماما هائلا بسبب وظائفه المتخصصة، والحساب المتوازي الهامة، والقابلية للتمويل المرن. ومع ذلك، تظهر الدراسات التجريبية الحديثة للغاية أن بعض رؤساء الانتباه الذاتي يكسبون مساهمة ضئيلة ويمكن تقليم رؤوس زائدة عن الحاجة. يأخذ هذا العمل منظورا جديدا لتحديد رؤساء الرؤوس الزائدة ثم الاكتتاب. نقترحنا طريقة توسيع الرأس الحيلية (RHE) لتحديد الرؤوس الزائدة، ثم تكمن إمكاناتها من خلال تعلم العلاقات النحوية والمعرفة السابقة في النص دون التضحية بأدوار رؤساء هامة. آليات اهتمام بناء على بناء الجملة رواية (البحر) الجديد: يتم تقديم تحيز قناع التبعية وتحيز من وضع الجمل المحلي النسبي، لمراجعة توزيعات الانتباه الذاتي لتحسين النحوي في الترجمة الآلية. يتم تقييم أهمية الرؤساء الفردية ديناميكيا أثناء تحديد الرؤوس الزائدة، حيث نطبقنا البحر على تنقل رؤوسا زائدة عن الحاجة مع الحفاظ على قوة الرؤوس المهمة. النتائج التجريبية على تبنيها على نطاق واسع WMT14 و WMT16 الإنجليزية إلى الألمانية والإنجليزية إلى اللغة التشيكية ترجمة آلة اللغة التشيكية تحقق من فعالية RHE.
Multi-head self-attention recently attracts enormous interest owing to its specialized functions, significant parallelizable computation, and flexible extensibility. However, very recent empirical studies show that some self-attention heads make little contribution and can be pruned as redundant heads. This work takes a novel perspective of identifying and then vitalizing redundant heads. We propose a redundant head enlivening (RHE) method to precisely identify redundant heads, and then vitalize their potential by learning syntactic relations and prior knowledge in the text without sacrificing the roles of important heads. Two novel syntax-enhanced attention (SEA) mechanisms: a dependency mask bias and a relative local-phrasal position bias, are introduced to revise self-attention distributions for syntactic enhancement in machine translation. The importance of individual heads is dynamically evaluated during the redundant heads identification, on which we apply SEA to vitalize redundant heads while maintaining the strength of important heads. Experimental results on widely adopted WMT14 and WMT16 English to German and English to Czech language machine translation validate the RHE effectiveness.
References used
https://aclanthology.org/
Opinion target extraction and opinion term extraction are two fundamental tasks in Aspect Based Sentiment Analysis (ABSA). Many recent works on ABSA focus on Target-oriented Opinion Words (or Terms) Extraction (TOWE), which aims at extracting the cor
Recent research questions the importance of the dot-product self-attention in Transformer models and shows that most attention heads learn simple positional patterns. In this paper, we push further in this research line and propose a novel substitute
Non-Autoregressive machine Translation (NAT) models have demonstrated significant inference speedup but suffer from inferior translation accuracy. The common practice to tackle the problem is transferring the Autoregressive machine Translation (AT) k
Multiple parallel attention mechanisms that use multiple attention heads facilitate greater performance of the Transformer model for various applications e.g., Neural Machine Translation (NMT), text classification. In multi-head attention mechanism,
Quality estimation (QE) of machine translation (MT) aims to evaluate the quality of machine-translated sentences without references and is important in practical applications of MT. Training QE models require massive parallel data with hand-crafted q