توضح هذه الورقة تقديم IWSLT-St المجموعة ESPNET-St Group في مسار ترجمة الكلام دون اتصال بالإنترنت. لقد بذلنا هذا العام جهود مختلفة على تدريب البيانات والهندسة المعمارية وتجزئة الصوت. على جانب البيانات، التحقق في تقطير المعرفة على مستوى التسلسل (SEQKD) لترجمة خطاب نهاية إلى نهاية (E2E). على وجه التحديد، استخدمنا SEQKD متعدد المراجع من المعلمين المتعددين المدربين على كميات مختلفة من BiteXT. في جانب الهندسة المعمارية، اعتمكنا من تشفير المطابقة والهندسة المعمارية متعددة اللمعان، والذي يزود بكوادر مخصصة للتعرف على الكلام ومهام الترجمة في نموذج ترميز الترميز الموحد وتمكن البحث في كل من المساحات المصدر والجلد المستهدف أثناء الاستدلال. نحن أيضا تحسين تجزئة الصوت باستخدام مجموعة أدوات Pyannote.Audio ودمج قطاعات قصيرة متعددة للنمذجة ذات السياق الطويل. أظهرت التقييمات التجريبية أن كل منهم ساهم في تحسينات كبيرة في أداء الترجمة. مجتمع أفضل نظام E2E لدينا بجميع التقنيات المذكورة أعلاه مع مجموعة نموذجية وحققت 31.4 بلو في المرجع 2- TST2021 و 21.2 بلو و 19.3 بلو على المراجع الفردية من TST2021.
This paper describes the ESPnet-ST group's IWSLT 2021 submission in the offline speech translation track. This year we made various efforts on training data, architecture, and audio segmentation. On the data side, we investigated sequence-level knowledge distillation (SeqKD) for end-to-end (E2E) speech translation. Specifically, we used multi-referenced SeqKD from multiple teachers trained on different amounts of bitext. On the architecture side, we adopted the Conformer encoder and the Multi-Decoder architecture, which equips dedicated decoders for speech recognition and translation tasks in a unified encoder-decoder model and enables search in both source and target language spaces during inference. We also significantly improved audio segmentation by using the pyannote.audio toolkit and merging multiple short segments for long context modeling. Experimental evaluations showed that each of them contributed to large improvements in translation performance. Our best E2E system combined all the above techniques with model ensembling and achieved 31.4 BLEU on the 2-ref of tst2021 and 21.2 BLEU and 19.3 BLEU on the two single references of tst2021.
المراجع المستخدمة
https://aclanthology.org/
توضح هذه الورقة تقديم نظام الترجمة من Niutrans End-tou-end الكلام للمهمة غير المتصلة IWSLT 2021، والتي تترجم من الصوت الإنجليزي إلى النص الألماني مباشرة دون نسخ متوسط.نحن نستخدم الهندسة المعمارية النموذجية القائمة على المحولات وتعزيزها عن طريق مطابقة
تصف هذه الورقة Kit'SubImission إلى مهمة ترجمة الكلام IWSLT 2021 دون اتصال بالإنترنت.وصفنا نظاما في كل من الحالة المتتالية وحالة نهاية إلى النهاية.في الحالة المتتالية، حققنا في معماريات مختلفة من نهاية إلى نهاية لوحدة التعرف على الكلام.لوحدة تجزئة الن
في هذه الورقة، وصفنا تقديم جامعة تشجيانغ إلى مهمة ترجمة الكلام متعددة اللغات IWSLT2021.تركز هذه المهمة على بحث ترجمة الكلام (ST) عبر العديد من لغات المصدر غير الإنجليزية.يمكن للمشاركين أن يقرروا ما إذا كانوا سيعملون على أنظمة مقيدة أو أنظمة غير مقيدة
تصف هذه الورقة مشاركة جامعة ماستريخت في مسار الترجمة متعددة اللغات في IWSLT 2021.المهمة في هذه المسار هي بناء أنظمة ترجمة خطاب متعددة اللغات في اتجاهات تحت إشراف ومطلة الصفر.نظامنا الأساسي هو نموذج نهاية إلى نهاية يؤدي إلى نسخ الكلام والترجمة.نلاحظ أ
تصف الورقة أنظمة ترجمة الكلام (ST) ولكن الإنجليزية إلى الألمانية. وهي تستند إلى نماذج الترجمة الآلية المعرونة التي تم تدريبها بشكل مشترك. يتم تقييم أدائها على مجموعة اختبار MUSTC المشتركة. في هذا العمل، ندرس كفاءتها من وجهة نظر وجود كمية كبيرة من بيا