تقوم أنظمة الترجمة التقليدية المدربين على وثائق مكتوبة بشكل جيد للترجمة المستندة إلى النصوص ولكن ليس كذلك للتطبيقات المستندة إلى الكلام.نحن نهدف إلى تكييف نماذج الترجمة إلى الكلام عن طريق إدخال أخطاء معجمية حقيقية من أخطاء ASR والتجزئة من علامات الترقيم التلقائية في بيانات تدريب الترجمة الخاصة بنا.نقدم نهج إسقاط مقلوب تم اكتشافه تلقائيا شرائح النظام تلقائيا على النصوص البشرية ومن ثم إعادة الشرائح ترجمة الذهب إلى محاذاة النصوص الإنسانية المتوقعة.نوضح أن هذا يتغلب على عدم تطابق اختبار القطار الموجود في نهج التدريب الأخرى.يحقق نهج الإسقاط الجديد مكاسب أكثر من 1 نقطة بلو على خط أساس يتعرض للنصوص البشرية والجزء، وهذه المكاسب تعقد لكلا بيانات IWSLT وبيانات YouTube.
Traditional translation systems trained on written documents perform well for text-based translation but not as well for speech-based applications. We aim to adapt translation models to speech by introducing actual lexical errors from ASR and segmentation errors from automatic punctuation into our translation training data. We introduce an inverted projection approach that projects automatically detected system segments onto human transcripts and then re-segments the gold translations to align with the projected human transcripts. We demonstrate that this overcomes the train-test mismatch present in other training approaches. The new projection approach achieves gains of over 1 BLEU point over a baseline that is exposed to the human transcripts and segmentations, and these gains hold for both IWSLT data and YouTube data.
المراجع المستخدمة
https://aclanthology.org/
تعلم الترجمة الآلية العصبية متعددة اللغات (MNMT) ترجمة أزواج متعددة اللغات بنموذج واحد، يحتمل أن يحسن كل من الدقة وكفاءة الذاكرة للنماذج المنتشرة. ومع ذلك، فإن عدم اختلال البيانات الثقيلة بين اللغات يعوق النموذج من الأداء بشكل موحد عبر أزواج اللغة. ف
مع زيادة الصوت في مجال الاتصالات، فإن الحاجة إلى ترجمات حية في الأحداث متعددة اللغات هي أكثر أهمية من أي وقت مضى. في محاولة لأتمتة العملية، نهدف إلى استكشاف جدوى ترجمة الكلام في وقت واحد (Simulst) للترجمة الحية. ومع ذلك، فإن معدل توليد Word-For-Word
تصف هذه الورقة مشاركة جامعة ماستريخت في مسار الترجمة متعددة اللغات في IWSLT 2021.المهمة في هذه المسار هي بناء أنظمة ترجمة خطاب متعددة اللغات في اتجاهات تحت إشراف ومطلة الصفر.نظامنا الأساسي هو نموذج نهاية إلى نهاية يؤدي إلى نسخ الكلام والترجمة.نلاحظ أ
تحتوي هذه الورقة على وصف لتقديم معهد Karlsruhe للتكنولوجيا (KIT) لمهمة ترجمة TEDX متعددة اللغات في حملة تقييم IWSLT 2021.نهجنا الرئيسي هو تطوير كل من النظم المتتالية ونظم نهاية إلى نهاية وتجمع بينها في نهاية المطاف لتحقيق أفضل النتائج الممكنة لهذا ال
في هذه الورقة، وصفنا تقديم جامعة تشجيانغ إلى مهمة ترجمة الكلام متعددة اللغات IWSLT2021.تركز هذه المهمة على بحث ترجمة الكلام (ST) عبر العديد من لغات المصدر غير الإنجليزية.يمكن للمشاركين أن يقرروا ما إذا كانوا سيعملون على أنظمة مقيدة أو أنظمة غير مقيدة