تتابع طريقة تحسين الكلام القائم على اخفاء قناع مضاعف ينطبق على الطيفية من الكلام الفاسد من ضوضاء الإدخال، وغالبا ما تستخدم شبكة عميقة العصبية (DNN) لتعلم القناع. على وجه الخصوص، يمكن أن تكون الميزات الشائعة الاستخدام للتعرف على الكلام التلقائي بمثابة مدخلات DNN لتعلم القناع حسن التصرف الذي يقلل بشكل كبير من تشويه الضوضاء للكلمات المعالجة. تقترح هذه الدراسة إعادة معالجة ميزات خطاب المدخلات لمقنعة النسبة المثالية (IRM) - DNN بواسطة Lowpass Filtering من أجل تخفيف مكونات الضوضاء. على وجه الخصوص، فإننا نوظف تحويل المويجات المنفصلة (DWT) لتحلل تسلسل ميزة الكلام الزمنية وتوسيع نطاق معاملات التفاصيل، مما يتوافق مع الجزء المرتفع من التسلسل. تكشف التجارب الأولية التي أجراها مجموعة فرعية من تيميت كوربوس أن الطريقة المقترحة يمكن أن تجعل IRM الناتجة تحقيق جودة أعلى للكلام وضوحا للإشارات الاضافة عن الضوضاء الخليفة مقارنة مع IRM الأصلي، مما يشير إلى أن تسلسل الميزات الزمنية المرشح ل Lowpass يمكن أن يتعلم متفوقة شبكة IRM لتعزيز الكلام.
The masking-based speech enhancement method pursues a multiplicative mask that applies to the spectrogram of input noise-corrupted utterance, and a deep neural network (DNN) is often used to learn the mask. In particular, the features commonly used for automatic speech recognition can serve as the input of the DNN to learn the well-behaved mask that significantly reduce the noise distortion of processed utterances. This study proposes to preprocess the input speech features for the ideal ratio mask (IRM)-based DNN by lowpass filtering in order to alleviate the noise components. In particular, we employ the discrete wavelet transform (DWT) to decompose the temporal speech feature sequence and scale down the detail coefficients, which correspond to the high-pass portion of the sequence. Preliminary experiments conducted on a subset of TIMIT corpus reveal that the proposed method can make the resulting IRM achieve higher speech quality and intelligibility for the babble noise-corrupted signals compared with the original IRM, indicating that the lowpass filtered temporal feature sequence can learn a superior IRM network for speech enhancement.
المراجع المستخدمة
https://aclanthology.org/
في هذا المشروع نقوم بدراسة المويجات و تحويل المويجة، و بيان إمكانية توظيفه في معالجة و تحليل الإشارة
الكلامية و ذلك بهدف تحسينها و إزالة الضجيج منها، حيث سنطرح بعض الخوارزميات التي تعتمد على
تحويل المويجة و آلية تطبيقها من أجل التخلص من الضجيج في ا
في هذه الورقة، نصف التجارب المصممة لتقييم تأثير الميزات المصنوعة من النسيج والعاطفة على الكشف عن الكلام الكراهية: مهمة تصنيف المحتوى النصي في فئات الكلام الكراهية أو غير الكراهية. تجري تجاربنا لمدة ثلاث لغات - اللغة الإنجليزية والسلوفين والهولندية -
تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة التي دخلت بقوة في مجالات الحياة المختلفة سواء الطبية أو الأمنية أو الصناعية. و بناءً عليه تم تطوير العديد من الأنظمة المعتمدة على طرق مختلفة في استخلاص السمات و التصنيف.
في هذا البحث تم إنشاء ثلاث
تقلص نهج التحيز مع اعتماد النماذج على ميزات البيانات الحساسة للبيانات، مثل رموز المجموعة الاجتماعية (SGTS)، مما يؤدي إلى تنبؤات متساوية عبر الميزات الحساسة.ومع ذلك، في الكشف عن الكلام الكراهية، قد يتجاهل تكالير التعادل النموذجي الاختلافات المهمة بين
توضح هذه الورقة التقديم إلى المهمة المشتركة لخطوط خطاب IWSLT 2021 من قبل فريق IMS.نستخدم النماذج الحديثة من النماذج المشتركة مع العديد من أساليب تكبير البيانات ومتعدد المهام والنقل مناهج للتعرف على الكلام التلقائي (ASR) وخطوات الترجمة الآلية (MT) لنظ