في صناعة وسائل الإعلام وتركيز التقارير العالمية قد تحول بين عشية وضحاها. هناك حاجة ملحة إلى أن تكون قادرة على تطوير أنظمة ترجمة آلية جديدة في فترة زمنية قصيرة وللغطي بشكل أكثر كفاءة تطوير القصص بسرعة أكبر. كجزء من مشروع EU Gourmet ورفع التركيز على الترجمة ذات الآلات المنخفضة وشركاؤنا الإعلامي لغة مفاجئة يجب أن يتم بناء نظام الترجمة الآلي وتقييمه خلال شهرين (فبراير وآذار / مارس 2021). كانت اللغة المختارة كانت الباشتونية ولغة هندية إيرانية تحدثت في أفغانستان وباكستان والهند. في هذه الفترة، أكملنا خط الأنابيب الكامل لتنمية نظام الترجمة الآلية العصبية: الزحف البيانات والتنظيف ومحاذاة وإنشاء مجموعات الاختبار وتطوير ونماذج الاختبار وتقديمها إلى شركاء المستخدمين. في هذه الورق، نطبق إنشاء البيانات والتجارب السريعة مع التعلم والنقل الاحتياطي لهذا زوج لغة الموارد المنخفضة. نجد أن بدءا من نموذج كبير موجود مدرب مسبقا على 50 لغة يؤدي إلى نتائج بلو أفضل بكثير من الاحيلية على زوج لغة موارد عالية مع نموذج أصغر. نقدم أيضا تقييم بشري لأنظمنا والتي تشير إلى أن النظم الناتجة أداء أفضل من النظام التجاري المتاح بحرية عند ترجمة من اللغة الإنجليزية إلى اتجاه البشتونية وبالمثل عند ترجمة من البشتو إلى الإنجليزية.
In the media industry and the focus of global reporting can shift overnight. There is a compelling need to be able to develop new machine translation systems in a short period of time and in order to more efficiently cover quickly developing stories. As part of the EU project GoURMET and which focusses on low-resource machine translation and our media partners selected a surprise language for which a machine translation system had to be built and evaluated in two months(February and March 2021). The language selected was Pashto and an Indo-Iranian language spoken in Afghanistan and Pakistan and India. In this period we completed the full pipeline of development of a neural machine translation system: data crawling and cleaning and aligning and creating test sets and developing and testing models and and delivering them to the user partners. In this paperwe describe rapid data creation and experiments with transfer learning and pretraining for this low-resource language pair. We find that starting from an existing large model pre-trained on 50languages leads to far better BLEU scores than pretraining on one high-resource language pair with a smaller model. We also present human evaluation of our systems and which indicates that the resulting systems perform better than a freely available commercial system when translating from English into Pashto direction and and similarly when translating from Pashto into English.
References used
https://aclanthology.org/
A cascaded Sign Language Translation system first maps sign videos to gloss annotations and then translates glosses into a spoken languages. This work focuses on the second-stage gloss translation component, which is challenging due to the scarcity o
This paper presents an overview of AVASAG; an ongoing applied-research project developing a text-to-sign-language translation system for public services. We describe the scientific innovation points (geometry-based SL-description, 3D animation and video corpus, simplified annotation scheme, motion capture strategy) and the overall translation pipeline.
As Machine Translation (MT) has become increasingly more powerful, accessible, and widespread, the potential for the perpetuation of bias has grown alongside its advances. While overt indicators of bias have been studied in machine translation, we ar
Communication between healthcare professionals and deaf patients is challenging, and the current COVID-19 pandemic makes this issue even more acute. Sign language interpreters can often not enter hospitals and face masks make lipreading impossible. T
Translation models for the specific domain of translating Covid data from English to Irish were developed for the LoResMT 2021 shared task. Domain adaptation techniques, using a Covid-adapted generic 55k corpus from the Directorate General of Transla