ترغب بنشر مسار تعليمي؟ اضغط هنا

تتابع طريقة تحسين الكلام القائم على اخفاء قناع مضاعف ينطبق على الطيفية من الكلام الفاسد من ضوضاء الإدخال، وغالبا ما تستخدم شبكة عميقة العصبية (DNN) لتعلم القناع. على وجه الخصوص، يمكن أن تكون الميزات الشائعة الاستخدام للتعرف على الكلام التلقائي بمثابة مدخلات DNN لتعلم القناع حسن التصرف الذي يقلل بشكل كبير من تشويه الضوضاء للكلمات المعالجة. تقترح هذه الدراسة إعادة معالجة ميزات خطاب المدخلات لمقنعة النسبة المثالية (IRM) - DNN بواسطة Lowpass Filtering من أجل تخفيف مكونات الضوضاء. على وجه الخصوص، فإننا نوظف تحويل المويجات المنفصلة (DWT) لتحلل تسلسل ميزة الكلام الزمنية وتوسيع نطاق معاملات التفاصيل، مما يتوافق مع الجزء المرتفع من التسلسل. تكشف التجارب الأولية التي أجراها مجموعة فرعية من تيميت كوربوس أن الطريقة المقترحة يمكن أن تجعل IRM الناتجة تحقيق جودة أعلى للكلام وضوحا للإشارات الاضافة عن الضوضاء الخليفة مقارنة مع IRM الأصلي، مما يشير إلى أن تسلسل الميزات الزمنية المرشح ل Lowpass يمكن أن يتعلم متفوقة شبكة IRM لتعزيز الكلام.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا