ترغب بنشر مسار تعليمي؟ اضغط هنا

دون مزيد من ADO: ترجمة الكلام المباشرة والزاميرة من قبل Apptek في 2021

Without Further Ado: Direct and Simultaneous Speech Translation by AppTek in 2021

387   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

توضح هذه الورقة أنظمة ترجمة الكلام غير المتصلة بالإنترنت والمزخرفة التي تم تطويرها في Apptek for IWSLT 2021. يتضمن خضائه غير المتصل للنظام المباشر للنظام المباشر والنموذج المتكامل الخفي المزعوم، وهو أقرب إلى نظام Cascade ولكن تم تدريبهفي أزياء نهاية إلى نهاية، حيث تكون جميع الوحدات المتطرفة النماذج نهاية إلى نهاية نفسها.بالنسبة إلى القديس المتزامن، نجمع بين التعرف على الكلام التلقائي الهجينة بنهج ترجمة آلية يتم تعلم قرارات سياسة الترجمة من محاذاة الكلمة الإحصائية.مقارنة بالعام الماضي، نحسن الجودة العامة وتوفير مجموعة واسعة من مفاضات الجودة / الكمون، سواء بسبب طريقة تكبير البيانات مما يجعل نموذج MT قويا بأحجام قطع قطع متنوعة.أخيرا، نقدم طريقة تجزئة إخراج ASR إلى جمل تقدم أقل تأخير إضافي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة Kit'SubImission إلى مهمة ترجمة الكلام IWSLT 2021 دون اتصال بالإنترنت.وصفنا نظاما في كل من الحالة المتتالية وحالة نهاية إلى النهاية.في الحالة المتتالية، حققنا في معماريات مختلفة من نهاية إلى نهاية لوحدة التعرف على الكلام.لوحدة تجزئة الن ص، قمنا بتدريب نموذج صغير يستند إلى محول على بيانات أحادية الجودة عالية الجودة.لوحدة الترجمة، تم إعادة استخدام نموذج الترجمة العصبي في العام الماضي.في حالة نهاية إلى نهاية، فقد قمنا بتحسين بنية محولات الخطاب النسبية للوصول أو حتى تجاوز نتيجة نظام Cascade.
اكتسبت النماذج المستندة إلى المحولات شعبية متزايدة تحقق الأداء الحديث في العديد من مجالات البحث بما في ذلك ترجمة الكلام. ومع ذلك، فإن التعقيد التربيعي للمحول فيما يتعلق بديل تسلسل الإدخال يمنع اعتماده كما هو الحال مع إشارات صوتية، والتي تمثل عادة بال تسلسلات الطويلة. اللجوء الحلول الحالية إلى ضغط أساسي أساسي على أساس أخذ العينات الثابتة لميزات الصوت الخام. لذلك، فإن المعلومات اللغوية المفيدة المحتملة غير قابلة للوصول إلى طبقات أعلى مستوى في الهندسة المعمارية. لحل هذه المشكلة، نقترح الكلمة، وهي عبارة عن بنية، بفضل انخفاض استخدام الذاكرة في طبقات الاهتمام، وتجنب ضغط المخلفات الأولية والمعلومات المجامعة فقط على مستوى أعلى وفقا لمعايير لغوية أكثر استنارة. تظهر التجارب على ثلاث أزواج اللغات (en → de / es / nl) فعالية حلنا، مع مكاسب تصل إلى 0.8 بلو على Corpus القياسية يجب أن تكون ميديا ​​وعلى ما يصل إلى 4.0 بلو في سيناريو منخفض الموارد.
في هذه الورقة، وصفنا تقديم جامعة تشجيانغ إلى مهمة ترجمة الكلام متعددة اللغات IWSLT2021.تركز هذه المهمة على بحث ترجمة الكلام (ST) عبر العديد من لغات المصدر غير الإنجليزية.يمكن للمشاركين أن يقرروا ما إذا كانوا سيعملون على أنظمة مقيدة أو أنظمة غير مقيدة يمكنها استخدام البيانات الخارجية.نقوم بإنشاء أنظمة مقيدة للترجمة المتتالية والإنغانية في النهاية، باستخدام البيانات المقدمة فقط.في النهج المتتالي، نجمع بين التعرف على الكلام التلقائي في المطابقة (ASR) مع الترجمة الآلية العصبية القائمة على المحولات (NMT).تستخدم أنظمة الترجمة المباشرة المناسبة للكلام المباشرة في تشفير الأساس ومكتشف متعددة المهام.تم فركة الأنظمة المقدمة من قبل نماذج متتالية مختلفة.
تصف الورقة أنظمة ترجمة الكلام (ST) ولكن الإنجليزية إلى الألمانية. وهي تستند إلى نماذج الترجمة الآلية المعرونة التي تم تدريبها بشكل مشترك. يتم تقييم أدائها على مجموعة اختبار MUSTC المشتركة. في هذا العمل، ندرس كفاءتها من وجهة نظر وجود كمية كبيرة من بيا نات التدريب ASR المنفصلة وبيانات التدريب MT، وكمية أصغر من بيانات التدريب على الكلام. يتم استخدام كميات كبيرة من البيانات التدريبية ASR و MT لتدريب نماذج ASR و MT مسبقا. يتم استخدام بيانات الترجمة من الكلام لتحسين نماذج ASR-MT بشكل مشترك عن طريق تحديد مسار قابل للتطبيق من الكلام من الكلام إلى الترجمات. لهذا الغرض، نستخدم التمثيلات المستمرة الداخلية من وحدة فك ترميز ASR كدخل إلى وحدة MT. نظرا لأن ترجمة الكلام يمكن تحسينها من خلال تدريب وحدة فك الترميز العادية بالاشتراك مع وحدة MT-Module باستخدام كمية كبيرة من بيانات التدريب فقط MT فقط. نعرض أيضا تحسينات كبيرة من خلال تدريب وحدة ASR القادرة على توليد نص مخلوق، بدلا من مغادرة مهمة علامات الترقيم إلى وحدة MT.
توضح هذه الورقة تقديم IWSLT-St المجموعة ESPNET-St Group في مسار ترجمة الكلام دون اتصال بالإنترنت. لقد بذلنا هذا العام جهود مختلفة على تدريب البيانات والهندسة المعمارية وتجزئة الصوت. على جانب البيانات، التحقق في تقطير المعرفة على مستوى التسلسل (SEQKD) لترجمة خطاب نهاية إلى نهاية (E2E). على وجه التحديد، استخدمنا SEQKD متعدد المراجع من المعلمين المتعددين المدربين على كميات مختلفة من BiteXT. في جانب الهندسة المعمارية، اعتمكنا من تشفير المطابقة والهندسة المعمارية متعددة اللمعان، والذي يزود بكوادر مخصصة للتعرف على الكلام ومهام الترجمة في نموذج ترميز الترميز الموحد وتمكن البحث في كل من المساحات المصدر والجلد المستهدف أثناء الاستدلال. نحن أيضا تحسين تجزئة الصوت باستخدام مجموعة أدوات Pyannote.Audio ودمج قطاعات قصيرة متعددة للنمذجة ذات السياق الطويل. أظهرت التقييمات التجريبية أن كل منهم ساهم في تحسينات كبيرة في أداء الترجمة. مجتمع أفضل نظام E2E لدينا بجميع التقنيات المذكورة أعلاه مع مجموعة نموذجية وحققت 31.4 بلو في المرجع 2- TST2021 و 21.2 بلو و 19.3 بلو على المراجع الفردية من TST2021.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا