مع زيادة الصوت في مجال الاتصالات، فإن الحاجة إلى ترجمات حية في الأحداث متعددة اللغات هي أكثر أهمية من أي وقت مضى. في محاولة لأتمتة العملية، نهدف إلى استكشاف جدوى ترجمة الكلام في وقت واحد (Simulst) للترجمة الحية. ومع ذلك، فإن معدل توليد Word-For-Word من أنظمة Simulst غير مثلى لعرض الترجمات بطريقة مفهومة وقابلة للقراءة. في هذا العمل، نقوم بتكييف Simulst Systems للتنبؤ برصيد الترجمة إلى جانب الترجمة. بعد ذلك، نقترح وضع العرض الذي يستغل بنية الاستراحة المتوقعة عن طريق تقديم الترجمات في خطوط التمرير. قارنا وضعنا المقترح مع شاشة 1) Word-for-word و 2) في كتل، من حيث سرعة القراءة والتأخير. تظهر التجارب على ثلاث أزواج اللغة (en → IT، DE، FR) أن خطوط التمرير هي الوضع الوحيد الذي يحقق سرعة قراءة مقبولة مع الحفاظ على التأخير بالقرب من عتبة 4 ثانية. نجرب أن الترجمة الفورية للترجمات الحية القابلة للقراءة لا تزال تواجه تحديات، والثيقة هي ذات جودة ترجمة ضعيفة، واقتراح توجيهات بحث في المستقبل.
With the increased audiovisualisation of communication, the need for live subtitles in multilingual events is more relevant than ever. In an attempt to automatise the process, we aim at exploring the feasibility of simultaneous speech translation (SimulST) for live subtitling. However, the word-for-word rate of generation of SimulST systems is not optimal for displaying the subtitles in a comprehensible and readable way. In this work, we adapt SimulST systems to predict subtitle breaks along with the translation. We then propose a display mode that exploits the predicted break structure by presenting the subtitles in scrolling lines. We compare our proposed mode with a display 1) word-for-word and 2) in blocks, in terms of reading speed and delay. Experiments on three language pairs (en→it, de, fr) show that scrolling lines is the only mode achieving an acceptable reading speed while keeping delay close to a 4-second threshold. We argue that simultaneous translation for readable live subtitles still faces challenges, the main one being poor translation quality, and propose directions for steering future research.
المراجع المستخدمة
https://aclanthology.org/
تقوم أنظمة الترجمة التقليدية المدربين على وثائق مكتوبة بشكل جيد للترجمة المستندة إلى النصوص ولكن ليس كذلك للتطبيقات المستندة إلى الكلام.نحن نهدف إلى تكييف نماذج الترجمة إلى الكلام عن طريق إدخال أخطاء معجمية حقيقية من أخطاء ASR والتجزئة من علامات التر
في السنوات الأخيرة، اكتسبت الترجمة التلقائية للكلام في الكلام والكلام إلى النص زخما بفضل التقدم في الذكاء الاصطناعي، وخاصة في مجالات التعرف على الكلام والترجمة الآلية. يتم اختبار جودة هذه التطبيقات بشكل شائع مع المقاييس التلقائية، مثل بلو، في المقام
تصف هذه الورقة مشاركة جامعة ماستريخت في مسار الترجمة متعددة اللغات في IWSLT 2021.المهمة في هذه المسار هي بناء أنظمة ترجمة خطاب متعددة اللغات في اتجاهات تحت إشراف ومطلة الصفر.نظامنا الأساسي هو نموذج نهاية إلى نهاية يؤدي إلى نسخ الكلام والترجمة.نلاحظ أ
توضح هذه الورقة أنظمة ترجمة الكلام غير المتصلة بالإنترنت والمزخرفة التي تم تطويرها في Apptek for IWSLT 2021. يتضمن خضائه غير المتصل للنظام المباشر للنظام المباشر والنموذج المتكامل الخفي المزعوم، وهو أقرب إلى نظام Cascade ولكن تم تدريبهفي أزياء نهاية
نقترح إطارا عاما للترجمة الآلية المتزامنة.تستخدم النهج التقليدية عددا ثابتا من الكلمات المصدر لترجمة أو تعلم السياسات الديناميكية لعدد الكلمات المصدر عن طريق التعلم التعزيز.نحن هنا صياغة ترجمة متزامنة كمشكلة تعلم التسلسل الهيكلية إلى التسلسل.يتم تقدي