مع زيادة الصوت في مجال الاتصالات، فإن الحاجة إلى ترجمات حية في الأحداث متعددة اللغات هي أكثر أهمية من أي وقت مضى. في محاولة لأتمتة العملية، نهدف إلى استكشاف جدوى ترجمة الكلام في وقت واحد (Simulst) للترجمة الحية. ومع ذلك، فإن معدل توليد Word-For-Word من أنظمة Simulst غير مثلى لعرض الترجمات بطريقة مفهومة وقابلة للقراءة. في هذا العمل، نقوم بتكييف Simulst Systems للتنبؤ برصيد الترجمة إلى جانب الترجمة. بعد ذلك، نقترح وضع العرض الذي يستغل بنية الاستراحة المتوقعة عن طريق تقديم الترجمات في خطوط التمرير. قارنا وضعنا المقترح مع شاشة 1) Word-for-word و 2) في كتل، من حيث سرعة القراءة والتأخير. تظهر التجارب على ثلاث أزواج اللغة (en → IT، DE، FR) أن خطوط التمرير هي الوضع الوحيد الذي يحقق سرعة قراءة مقبولة مع الحفاظ على التأخير بالقرب من عتبة 4 ثانية. نجرب أن الترجمة الفورية للترجمات الحية القابلة للقراءة لا تزال تواجه تحديات، والثيقة هي ذات جودة ترجمة ضعيفة، واقتراح توجيهات بحث في المستقبل.
With the increased audiovisualisation of communication, the need for live subtitles in multilingual events is more relevant than ever. In an attempt to automatise the process, we aim at exploring the feasibility of simultaneous speech translation (SimulST) for live subtitling. However, the word-for-word rate of generation of SimulST systems is not optimal for displaying the subtitles in a comprehensible and readable way. In this work, we adapt SimulST systems to predict subtitle breaks along with the translation. We then propose a display mode that exploits the predicted break structure by presenting the subtitles in scrolling lines. We compare our proposed mode with a display 1) word-for-word and 2) in blocks, in terms of reading speed and delay. Experiments on three language pairs (en→it, de, fr) show that scrolling lines is the only mode achieving an acceptable reading speed while keeping delay close to a 4-second threshold. We argue that simultaneous translation for readable live subtitles still faces challenges, the main one being poor translation quality, and propose directions for steering future research.
References used
https://aclanthology.org/
Traditional translation systems trained on written documents perform well for text-based translation but not as well for speech-based applications. We aim to adapt translation models to speech by introducing actual lexical errors from ASR and segment
In recent years, automatic speech-to-speech and speech-to-text translation has gained momentum thanks to advances in artificial intelligence, especially in the domains of speech recognition and machine translation. The quality of such applications is
This paper describes Maastricht University's participation in the IWSLT 2021 multilingual speech translation track. The task in this track is to build multilingual speech translation systems in supervised and zero-shot directions. Our primary system
This paper describes the offline and simultaneous speech translation systems developed at AppTek for IWSLT 2021. Our offline ST submission includes the direct end-to-end system and the so-called posterior tight integrated model, which is akin to the
We propose a generative framework for simultaneous machine translation. Conventional approaches use a fixed number of source words to translate or learn dynamic policies for the number of source words by reinforcement learning. Here we formulate simu