ترغب بنشر مسار تعليمي؟ اضغط هنا

تصف الورقة أنظمة ترجمة الكلام (ST) ولكن الإنجليزية إلى الألمانية. وهي تستند إلى نماذج الترجمة الآلية المعرونة التي تم تدريبها بشكل مشترك. يتم تقييم أدائها على مجموعة اختبار MUSTC المشتركة. في هذا العمل، ندرس كفاءتها من وجهة نظر وجود كمية كبيرة من بيا نات التدريب ASR المنفصلة وبيانات التدريب MT، وكمية أصغر من بيانات التدريب على الكلام. يتم استخدام كميات كبيرة من البيانات التدريبية ASR و MT لتدريب نماذج ASR و MT مسبقا. يتم استخدام بيانات الترجمة من الكلام لتحسين نماذج ASR-MT بشكل مشترك عن طريق تحديد مسار قابل للتطبيق من الكلام من الكلام إلى الترجمات. لهذا الغرض، نستخدم التمثيلات المستمرة الداخلية من وحدة فك ترميز ASR كدخل إلى وحدة MT. نظرا لأن ترجمة الكلام يمكن تحسينها من خلال تدريب وحدة فك الترميز العادية بالاشتراك مع وحدة MT-Module باستخدام كمية كبيرة من بيانات التدريب فقط MT فقط. نعرض أيضا تحسينات كبيرة من خلال تدريب وحدة ASR القادرة على توليد نص مخلوق، بدلا من مغادرة مهمة علامات الترقيم إلى وحدة MT.
توضح هذه الورقة تقديم نظام FBK إلى مهمة ترجمة الكلام IWSLT 2021. شاركنا نموذجا مباشرا، وهو عبارة عن بنية قائمة على المحولات المدربة لتترجم بيانات صوت الكلام باللغة الإنجليزية إلى نصوص ألمانية. يتميز خط أنابيب التدريب بتقطير المعرفة وإجراءات ضبط ناعم من خطوتين. يتم تنفيذ كل من تقطير المعرفة والخطوة الأولى الدقيقة على البيانات الحقيقية والاصطناعية مجزأة يدويا، والذي يتم إنشاؤه في هذا الأخير بنظام MT المدرب على الشركة المتاحة. بشكل مختلف، يتم تنفيذ خطوة التشغيل الدقيقة الثانية في تجزئة عشوائية ل DataSet MUST-C V2 EN-DE. هدفها الرئيسي هو تقليل قطرات الأداء التي تحدث عندما يتم تقييم نموذج الترجمة الكلام على البيانات المجزأة يدويا (I.E. لنفس الغرض، يتم تطبيق إجراء تجزئة هجينة مخصص تمثل كلا المحتوى الصوتي (توقف) وطول القطاعات المنتجة على بيانات الاختبار قبل تمريرها إلى النظام. في وقت الاستنتاج، قارننا هذا الإجراء مع طريقة تجزئة خط الأساس استنادا إلى اكتشاف نشاط الصوت (VAD). تشير نتائجنا إلى فعالية النهج الهجين المقترح، الذي أظهره تخفيض الفجوة مع تجزئة يدوية من نقاط بلو 8.3 إلى 1.4.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا