أحد التحديات الرئيسية في ترجمة لغة الإشارة من لغة الإشارة إلى لغة منطوقة هو عدم وجود كوربورا متوازي. حققت الأعمال الحديثة نتائج واعدة على مجموعة بيانات RWTH-Phoenix-Weather 2014T، والتي تتكون من أكثر من ثمانية آلاف من الجمل الموازية بين لغة الإشارة الألمانية والألمانية. ومع ذلك، من منظور الترجمة الآلية العصبية، لا تزال هذه مجموعة بيانات صغيرة. لتحسين أداء النماذج المدربة على مجموعات البيانات الصغيرة، يمكن استخدام التعلم التحويل. في حين أن هذا قد تم تطبيقه مسبقا في ترجمة لغة الإشارة لاستخراج ميزة، فإن أفضل ما في معرفتنا، لم يتم التحقيق في نماذج اللغة المحددة مسبقا. نستخدم نماذج BERT-Base و MBART-50 لتهيئة فيديو لغة الإشارة لنموذج الترجمة النصية باللغة المنطوقة. لتخفيف الزيادة، نحن نطبق تقنية المحولات المجمدة مسبقا: نحن نجمد غالبية المعلمات أثناء التدريب. باستخدام نموذج Bertrained Bertrain، نحن نتفوق على خط الأساس المدربين من الصفر بنسبة 1 إلى 2 BLEU-4. تظهر نتائجنا أن نماذج اللغة المحددة مسبقا يمكن استخدامها لتحسين أداء ترجمة لغة الإشارة وأن أنماط اهتمام الذات في نقل Bert في صفر تسديدة إلى ترميز ونماذج ترجمة لغة الإشارة.
One of the major challenges in sign language translation from a sign language to a spoken language is the lack of parallel corpora. Recent works have achieved promising results on the RWTH-PHOENIX-Weather 2014T dataset, which consists of over eight thousand parallel sentences between German sign language and German. However, from the perspective of neural machine translation, this is still a tiny dataset. To improve the performance of models trained on small datasets, transfer learning can be used. While this has been previously applied in sign language translation for feature extraction, to the best of our knowledge, pretrained language models have not yet been investigated. We use pretrained BERT-base and mBART-50 models to initialize our sign language video to spoken language text translation model. To mitigate overfitting, we apply the frozen pretrained transformer technique: we freeze the majority of parameters during training. Using a pretrained BERT model, we outperform a baseline trained from scratch by 1 to 2 BLEU-4. Our results show that pretrained language models can be used to improve sign language translation performance and that the self-attention patterns in BERT transfer in zero-shot to the encoder and decoder of sign language translation models.
References used
https://aclanthology.org/
Sign language translation (SLT) is often decomposed into video-to-gloss recognition and gloss to-text translation, where a gloss is a sequence of transcribed spoken-language words in the order in which they are signed. We focus here on gloss-to-text
Communication between healthcare professionals and deaf patients is challenging, and the current COVID-19 pandemic makes this issue even more acute. Sign language interpreters can often not enter hospitals and face masks make lipreading impossible. T
A cascaded Sign Language Translation system first maps sign videos to gloss annotations and then translates glosses into a spoken languages. This work focuses on the second-stage gloss translation component, which is challenging due to the scarcity o
We present a number of methodological recommendations concerning the online evaluation of avatars for text-to-sign translation, focusing on the structure, format and length of the questionnaire, as well as methods for eliciting and faithfully transcribing responses
This paper presents an overview of AVASAG; an ongoing applied-research project developing a text-to-sign-language translation system for public services. We describe the scientific innovation points (geometry-based SL-description, 3D animation and video corpus, simplified annotation scheme, motion capture strategy) and the overall translation pipeline.