في السنوات الأخيرة، اكتسبت الترجمة التلقائية للكلام في الكلام والكلام إلى النص زخما بفضل التقدم في الذكاء الاصطناعي، وخاصة في مجالات التعرف على الكلام والترجمة الآلية. يتم اختبار جودة هذه التطبيقات بشكل شائع مع المقاييس التلقائية، مثل بلو، في المقام الأول بهدف تقييم التحسينات في الإصدارات أو في سياق حملات التقييم. ومع ذلك، يعرف القليل عن كيفية إدراك إخراج هذه الأنظمة من قبل المستخدمين النهائيين أو كيف تقارن بين العروض البشرية في مهام تواصل مماثلة. في هذه الورقة، نقدم نتائج تجربة تهدف إلى تقييم جودة محرك ترجمة الكلام في الوقت الفعلي من خلال مقارنته بأداء المترجمين الفوريين المهنيين المهنيين. للقيام بذلك، نعتمد إطارا تم تطويره لتقييم المترجمين الفوريين البشري واستخدامه لإجراء تقييم يدوي على كل من العروض البشرية والآلة. في عيناتنا، وجدنا أداء أفضل للمترجمين الفوريين البشري من حيث الوضوح، في حين أن الجهاز ينفذ بشكل أفضل قليلا من حيث المعلوماتية. وتناقش قيود الدراسة والتحسينات المحتملة للإطار المختار. على الرغم من قيودها الجوهرية، فإن استخدام هذا الإطار يمثل خطوة أولى نحو منهجية ذات سن المراهقة على المستخدمين ومنهجية موجهة نحو الاتصال لتقييم ترجمة الكلام التلقائي في الوقت الفعلي.
In recent years, automatic speech-to-speech and speech-to-text translation has gained momentum thanks to advances in artificial intelligence, especially in the domains of speech recognition and machine translation. The quality of such applications is commonly tested with automatic metrics, such as BLEU, primarily with the goal of assessing improvements of releases or in the context of evaluation campaigns. However, little is known about how the output of such systems is perceived by end users or how they compare to human performances in similar communicative tasks. In this paper, we present the results of an experiment aimed at evaluating the quality of a real-time speech translation engine by comparing it to the performance of professional simultaneous interpreters. To do so, we adopt a framework developed for the assessment of human interpreters and use it to perform a manual evaluation on both human and machine performances. In our sample, we found better performance for the human interpreters in terms of intelligibility, while the machine performs slightly better in terms of informativeness. The limitations of the study and the possible enhancements of the chosen framework are discussed. Despite its intrinsic limitations, the use of this framework represents a first step towards a user-centric and communication-oriented methodology for evaluating real-time automatic speech translation.
References used
https://aclanthology.org/
Reliable automatic evaluation of dialogue systems under an interactive environment has long been overdue. An ideal environment for evaluating dialog systems, also known as the Turing test, needs to involve human interaction, which is usually not affo
This paper describes the offline and simultaneous speech translation systems developed at AppTek for IWSLT 2021. Our offline ST submission includes the direct end-to-end system and the so-called posterior tight integrated model, which is akin to the
With the increased audiovisualisation of communication, the need for live subtitles in multilingual events is more relevant than ever. In an attempt to automatise the process, we aim at exploring the feasibility of simultaneous speech translation (Si
Simultaneous translation is a task in which translation begins before the speaker has finished speaking, so it is important to decide when to start the translation process. However, deciding whether to read more input words or start to translate is d
Transformer-based models have gained increasing popularity achieving state-of-the-art performance in many research fields including speech translation. However, Transformer's quadratic complexity with respect to the input sequence length prevents its