في السنوات الأخيرة، أعاد ظهور منصات تدفق مثل Netflix أو HBO أو Amazon Prime Prieet في مجال الترفيه، والذي يعتمد بشكل متزايد على أوضاع الروائح أو الصوت على الصوت. ومع ذلك، يعرف القليل عن الترجمة السمعية البصرية عند التعامل مع محركات الترجمة الآلية العصبية (NMT). تسعى ورقة العمل في العمل هذه إلى فحص الترجمات الإنجليزية من الحلقة الأولى للفتيات الكابلات الإسبانية سلسلة Netflix الشهيرة والنسخة المترجمة التي تم إنشاؤها بواسطة Google Translate و Deepl. سيساعدنا هذا التحليل في تحديد ما إذا كانت هناك اختلافات لغوية كبيرة يمكن أن تؤدي إلى سوء فهم أو صدمات ثقافية. تحقيقا لهذه الغاية، تتكون Corpus Compounts من البرنامج النصي الإسباني، المتاحة الترجمات الإنجليزية في Netflix والإصدار المترجم من البرنامج النصي. لتحليل البيانات، تم تصنيف الأخطاء بعد مصممة خطأ DQF / MQM وتم تقييمها باستخدام Metric Bleu التلقائي. تظهر النتائج أن محركات NMT تقدم ترجمات ذات نوعية جيدة، والتي بدورها قد تستفيد المترجمين الذين يعملون مع موارد الترفيه البصرية.
In recent years, the emergence of streaming platforms such as Netflix, HBO or Amazon Prime Video has reshaped the field of entertainment, which increasingly relies on subtitling, dubbing or voice-over modes. However, little is known about audiovisual translation when dealing with Neural Machine Translation (NMT) engines. This work-in-progress paper seeks to examine the English subtitles of the first episode of the popular Spanish Netflix series Cable Girls and the translated version generated by Google Translate and DeepL. Such analysis will help us determine whether there are significant linguistic differences that could lead to miscomprehension or cultural shocks. To this end, the corpus compiled consists of the Spanish script, the English subtitles available in Netflix and the translated version of the script. For the analysis of the data, errors have been classified following the DQF/MQM Error typology and have been evaluated with the automatic BLEU metric. Results show that NMT engines offer good-quality translations, which in turn may benefit translators working with audiovisual entertainment resources.
References used
https://aclanthology.org/
Production NMT systems typically need to serve niche domains that are not covered by adequately large and readily available parallel corpora. As a result, practitioners often fine-tune general purpose models to each of the domains their organisation
Low-resource languages can be understood as languages that are more scarce, less studied, less privileged, less commonly taught and for which there are less resources available (Singh, 2008; Cieri et al., 2016; Magueresse et al., 2020). Natural Langu
The audio-visual speech recognition systems that rely on speech and
movement of the lips of the speaker of the most important speech
recognition systems. Many different techniques have developed in
terms of the methods used in the feature extracti
This paper describes the SEBAMAT contribution to the 2021 WMT Similar Language Translation shared task. Using the Marian neural machine translation toolkit, translation systems based on Google's transformer architecture were built in both directions
This paper describes the submission to the WMT 2021 news translation shared task by the UPC Machine Translation group. The goal of the task is to translate German to French (De-Fr) and French to German (Fr-De). Our submission focuses on fine-tuning a