توضح هذه الورقة تقديم IWSLT-St المجموعة ESPNET-St Group في مسار ترجمة الكلام دون اتصال بالإنترنت. لقد بذلنا هذا العام جهود مختلفة على تدريب البيانات والهندسة المعمارية وتجزئة الصوت. على جانب البيانات، التحقق في تقطير المعرفة على مستوى التسلسل (SEQKD) لترجمة خطاب نهاية إلى نهاية (E2E). على وجه التحديد، استخدمنا SEQKD متعدد المراجع من المعلمين المتعددين المدربين على كميات مختلفة من BiteXT. في جانب الهندسة المعمارية، اعتمكنا من تشفير المطابقة والهندسة المعمارية متعددة اللمعان، والذي يزود بكوادر مخصصة للتعرف على الكلام ومهام الترجمة في نموذج ترميز الترميز الموحد وتمكن البحث في كل من المساحات المصدر والجلد المستهدف أثناء الاستدلال. نحن أيضا تحسين تجزئة الصوت باستخدام مجموعة أدوات Pyannote.Audio ودمج قطاعات قصيرة متعددة للنمذجة ذات السياق الطويل. أظهرت التقييمات التجريبية أن كل منهم ساهم في تحسينات كبيرة في أداء الترجمة. مجتمع أفضل نظام E2E لدينا بجميع التقنيات المذكورة أعلاه مع مجموعة نموذجية وحققت 31.4 بلو في المرجع 2- TST2021 و 21.2 بلو و 19.3 بلو على المراجع الفردية من TST2021.