ترغب بنشر مسار تعليمي؟ اضغط هنا

في هذا التقرير الفني، وصفنا أن خط أنابيب ASR-MT المصنف الذي تم ضبطه على المهمة المشتركة IWSLT.نقوم بإزالة عينات الكلام الأقل فائدة عن طريق فحص WER مع نموذج ASR، وتدريب أحدث وحدة ASR القائمة على WAV2VEC ومقرها المحولات بناء على البيانات المرتبطة.بالإض افة إلى ذلك، نقوم بتخفيف Errata التي يمكن أن تتداخل مع عملية الترجمة الآلية واستخدامها لتدريب وحدة MT القائمة على المحولات.أخيرا، في مرحلة الاستدلال الفعلي، نستخدم نموذج اكتشاف حدود الجملة المدرب مع بيانات مقيدة لدمج مخرجات ASR بشكل صحيح في جمل كاملة.تتم معالجة الجمل المدمجة باستخدام جزء من الكلام.يتم تحقيق النتيجة النهائية من قبل وحدة MT المدربة.يعرض الأداء باستخدام مجموعة DEV Bleu 20.37، وهذا النموذج يسجل أداء Bleu 20.9 مع مجموعة الاختبار.
توضح هذه الورقة تقديم IWSLT-St المجموعة ESPNET-St Group في مسار ترجمة الكلام دون اتصال بالإنترنت. لقد بذلنا هذا العام جهود مختلفة على تدريب البيانات والهندسة المعمارية وتجزئة الصوت. على جانب البيانات، التحقق في تقطير المعرفة على مستوى التسلسل (SEQKD) لترجمة خطاب نهاية إلى نهاية (E2E). على وجه التحديد، استخدمنا SEQKD متعدد المراجع من المعلمين المتعددين المدربين على كميات مختلفة من BiteXT. في جانب الهندسة المعمارية، اعتمكنا من تشفير المطابقة والهندسة المعمارية متعددة اللمعان، والذي يزود بكوادر مخصصة للتعرف على الكلام ومهام الترجمة في نموذج ترميز الترميز الموحد وتمكن البحث في كل من المساحات المصدر والجلد المستهدف أثناء الاستدلال. نحن أيضا تحسين تجزئة الصوت باستخدام مجموعة أدوات Pyannote.Audio ودمج قطاعات قصيرة متعددة للنمذجة ذات السياق الطويل. أظهرت التقييمات التجريبية أن كل منهم ساهم في تحسينات كبيرة في أداء الترجمة. مجتمع أفضل نظام E2E لدينا بجميع التقنيات المذكورة أعلاه مع مجموعة نموذجية وحققت 31.4 بلو في المرجع 2- TST2021 و 21.2 بلو و 19.3 بلو على المراجع الفردية من TST2021.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا