تقترح هذه الورقة هندسة جديدة، والاهتمام المتقاطع محول المعزز (CAAT)، للحصول على ترجمة متزامنة.يهدف الإطار إلى تحسين نماذج السياسات والترجمة بشكل مشترك.للتفكير بشكل فعال في جميع مسارات عمل الترجمة المتزامنة للقراءة والكتابة، نقوم بتكييف طراز التعرف على الكلام التلقائي عبر الإنترنت (ASR)، RNN-T، ولكن قم بإزالة القيود الخطية القوية، وهو أمر بالغ الأهمية لمهمة الترجمة للنظر في إعادة ترتيب.لجعل أعمال CAAT، نقدم خسارة زمنية جديدة يمكن تحسين توقعها بواسطة خوارزمية متخلفة للأمام.نقوم بتنفيذ CAAT مع محول بينما يمكن أيضا تنفيذ الهندسة المعمارية العامة CAAT مع أطر ترميز التشفير الأخرى القائمة على الانتباه.تشير التجارب على مهام الترجمة الفورية للكلمة إلى النص (S2T) والنصوص (T2T) إلى أن CAAT تحقق مفاضلات أفضل لجودة الكمون بشكل كبير مقارنة بنهج الترجمة المتزامنة التي من بين الفن.
This paper proposes a novel architecture, Cross Attention Augmented Transducer (CAAT), for simultaneous translation. The framework aims to jointly optimize the policy and translation models. To effectively consider all possible READ-WRITE simultaneous translation action paths, we adapt the online automatic speech recognition (ASR) model, RNN-T, but remove the strong monotonic constraint, which is critical for the translation task to consider reordering. To make CAAT work, we introduce a novel latency loss whose expectation can be optimized by a forward-backward algorithm. We implement CAAT with Transformer while the general CAAT architecture can also be implemented with other attention-based encoder-decoder frameworks. Experiments on both speech-to-text (S2T) and text-to-text (T2T) simultaneous translation tasks show that CAAT achieves significantly better latency-quality trade-offs compared to the state-of-the-art simultaneous translation approaches.
References used
https://aclanthology.org/
Recent research questions the importance of the dot-product self-attention in Transformer models and shows that most attention heads learn simple positional patterns. In this paper, we push further in this research line and propose a novel substitute
Cross-attention is an important component of neural machine translation (NMT), which is always realized by dot-product attention in previous methods. However, dot-product attention only considers the pair-wise correlation between words, resulting in
We present a simple method for extending transformers to source-side trees. We define a number of masks that limit self-attention based on relationships among tree nodes, and we allow each attention head to learn which mask or masks to use. On transl
Spoken language understanding, usually including intent detection and slot filling, is a core component to build a spoken dialog system. Recent research shows promising results by jointly learning of those two tasks based on the fact that slot fillin
Emotion cause extraction (ECE) aims to extract the causes behind the certain emotion in text. Some works related to the ECE task have been published and attracted lots of attention in recent years. However, these methods neglect two major issues: 1)