تقوم الترجمة الآلية المتزامنة (Simt) بإنشاء ترجمة قبل قراءة جملة المصدر بأكملها وبالتالي يجب عليها التجانس بين جودة الترجمة والكمول. للوفاء بمتطلبات جودة الترجمة المختلفة والكمون في التطبيقات العملية، عادة ما تحتاج الأساليب السابقة إلى تدريب نماذج SIMT متعددة لمستويات الكمون المختلفة، مما يؤدي إلى تكاليف حسابية كبيرة. في هذه الورقة، نقترح نموذجا عالميا SIMT مع سياسة مثالية من الخبراء وينظر K لتحقيق أفضل جودة الترجمة تحت الكمون التعسفي مع نموذج واحد مدرب فقط. على وجه التحديد، توظف طريقتنا اهتماما متعدد الأطراف لإنجاز مزيج الخبراء حيث يتم التعامل مع كل رأس كخبير الانتظار الخاص به برقم كلمات الانتظار الخاصة به، وبالنظر إلى مزيد من مدخلات الكمون ومشروعات المصدر، يتم تعديل أوزان الخبراء لإنتاج أفضل الترجمة. تظهر التجارب في ثلاث مجموعات البيانات أن أسلوبنا تتفوق على جميع خطوط الأساس القوية بموجب زينة مختلفة، بما في ذلك السياسة التكيفية الحديثة.
Simultaneous machine translation (SiMT) generates translation before reading the entire source sentence and hence it has to trade off between translation quality and latency. To fulfill the requirements of different translation quality and latency in practical applications, the previous methods usually need to train multiple SiMT models for different latency levels, resulting in large computational costs. In this paper, we propose a universal SiMT model with Mixture-of-Experts Wait-k Policy to achieve the best translation quality under arbitrary latency with only one trained model. Specifically, our method employs multi-head attention to accomplish the mixture of experts where each head is treated as a wait-k expert with its own waiting words number, and given a test latency and source inputs, the weights of the experts are accordingly adjusted to produce the best translation. Experiments on three datasets show that our method outperforms all the strong baselines under different latency, including the state-of-the-art adaptive policy.
References used
https://aclanthology.org/
Cross-attention is an important component of neural machine translation (NMT), which is always realized by dot-product attention in previous methods. However, dot-product attention only considers the pair-wise correlation between words, resulting in
The ability to generate natural-language questions with controlled complexity levels is highly desirable as it further expands the applicability of question generation. In this paper, we propose an end-to-end neural complexity-controllable question g
Machine translation usually relies on parallel corpora to provide parallel signals for training. The advent of unsupervised machine translation has brought machine translation away from this reliance, though performance still lags behind traditional
Abstract Human evaluation of modern high-quality machine translation systems is a difficult problem, and there is increasing evidence that inadequate evaluation procedures can lead to erroneous conclusions. While there has been considerable research
In simultaneous machine translation, finding an agent with the optimal action sequence of reads and writes that maintain a high level of translation quality while minimizing the average lag in producing target tokens remains an extremely challenging