ترغب بنشر مسار تعليمي؟ اضغط هنا

توظيف ميزات الكلام الزمنية المرحلة المنخفضة لتدريب قناع نسبة مثالية في تحسين الكلام

Employing low-pass filtered temporal speech features for the training of ideal ratio mask in speech enhancement

197   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تتابع طريقة تحسين الكلام القائم على اخفاء قناع مضاعف ينطبق على الطيفية من الكلام الفاسد من ضوضاء الإدخال، وغالبا ما تستخدم شبكة عميقة العصبية (DNN) لتعلم القناع. على وجه الخصوص، يمكن أن تكون الميزات الشائعة الاستخدام للتعرف على الكلام التلقائي بمثابة مدخلات DNN لتعلم القناع حسن التصرف الذي يقلل بشكل كبير من تشويه الضوضاء للكلمات المعالجة. تقترح هذه الدراسة إعادة معالجة ميزات خطاب المدخلات لمقنعة النسبة المثالية (IRM) - DNN بواسطة Lowpass Filtering من أجل تخفيف مكونات الضوضاء. على وجه الخصوص، فإننا نوظف تحويل المويجات المنفصلة (DWT) لتحلل تسلسل ميزة الكلام الزمنية وتوسيع نطاق معاملات التفاصيل، مما يتوافق مع الجزء المرتفع من التسلسل. تكشف التجارب الأولية التي أجراها مجموعة فرعية من تيميت كوربوس أن الطريقة المقترحة يمكن أن تجعل IRM الناتجة تحقيق جودة أعلى للكلام وضوحا للإشارات الاضافة عن الضوضاء الخليفة مقارنة مع IRM الأصلي، مما يشير إلى أن تسلسل الميزات الزمنية المرشح ل Lowpass يمكن أن يتعلم متفوقة شبكة IRM لتعزيز الكلام.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذا المشروع نقوم بدراسة المويجات و تحويل المويجة، و بيان إمكانية توظيفه في معالجة و تحليل الإشارة الكلامية و ذلك بهدف تحسينها و إزالة الضجيج منها، حيث سنطرح بعض الخوارزميات التي تعتمد على تحويل المويجة و آلية تطبيقها من أجل التخلص من الضجيج في ا لإشارة الكلامية، و نقارن نتائج تطبيق هذه الخوارزميات مع بعض الخوارزميات التقليدية التي تستخدم في تحسين الإشارة الكلامية.
في هذه الورقة، نصف التجارب المصممة لتقييم تأثير الميزات المصنوعة من النسيج والعاطفة على الكشف عن الكلام الكراهية: مهمة تصنيف المحتوى النصي في فئات الكلام الكراهية أو غير الكراهية. تجري تجاربنا لمدة ثلاث لغات - اللغة الإنجليزية والسلوفين والهولندية - سواء في النطاق داخل المجال والمجازات، وتهدف إلى التحقيق في خطاب الكراهية باستخدام ميزات النموذجتين الظواهر اللغوية: أسلوب كتابة محتوى الوسائط الاجتماعية البغيضة تعمل كمستخدم Word كدالة على يد واحدة، وتعبير العاطفة في الرسائل البغيضة من ناحية أخرى. نتائج التجارب التي تحتوي على ميزات نموذج مجموعات مختلفة من هذه الظواهر تدعم فرضيتنا أن الميزات الأسيزية والعاطفية هي مؤشرات قوية لخطاب الكراهية. تظل مساهمتها مستمرة فيما يتعلق باختلاف المجال واللغة. نظظ أن مزيج من الميزات التي تتفوقت الظواهر المستهدفة على الكلمات والشخصيات N-Gram الميزات بموجب ظروف عبر المجال، وتوفر دفعة كبيرة لنماذج التعلم العميق، والتي تحصل حاليا على أفضل النتائج، عند دمجها في مجموعة واحدة وبعد
تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة التي دخلت بقوة في مجالات الحياة المختلفة سواء الطبية أو الأمنية أو الصناعية. و بناءً عليه تم تطوير العديد من الأنظمة المعتمدة على طرق مختلفة في استخلاص السمات و التصنيف. في هذا البحث تم إنشاء ثلاث ة أنظمة للتعرف على الكلام، تختلف عن بعضها البعض بالطرق المستخدمة في مرحلة استخلاص السمات، حيث استخدم النظام الأول خوارزمية MFCC بينما استخدم النظام الثاني خوارزمية LPCC أما النظام الثالث فاستخدم خوارزمية PLP. تشترك هذه الأنظمة بطريقة التصنيف حيث استخدمت خوارزمية الـHMM كمصنف. في البداية تم دراسة و تقييم أداء عملية التعرف على الكلام للأنظمة الثلاثة السابقة المقترحة منفردةً. بعد ذلك تم تطبيق خوارزمية الجمع على كل زوج من الأنظمة المدروسة و ذلك لدراسة أثر خوارزمية الجمع في تحسين التعرف على الكلام. تم اعتماد نوعين من الأخطاء، الأخطاء التزامنية (simultaneous errors) و الأخطاء الاعتمادية ((dependent errors، كوحدة مقارنة لدراسة فعالية خوارزمية الجمع في تحسين أداء عملية التعرف على الكلام. يتبين من نتائج المقارنة أن أفضل نسبة تعرف على الكلام تم الحصول عليها في حالة جمع الخوارزميتان MFCC و PLP حيث تم الحصول على معدل تعرف 93.4%.
تقلص نهج التحيز مع اعتماد النماذج على ميزات البيانات الحساسة للبيانات، مثل رموز المجموعة الاجتماعية (SGTS)، مما يؤدي إلى تنبؤات متساوية عبر الميزات الحساسة.ومع ذلك، في الكشف عن الكلام الكراهية، قد يتجاهل تكالير التعادل النموذجي الاختلافات المهمة بين الفئات الاجتماعية المستهدفة، حيث يمكن أن يحتوي خطاب الكراهية على لغة نمطية محددة لكل رقاقة.هنا، لاتخاذ لغة محددة حول كل رقص في الاعتبار، نعتمد على الإنصاف المتعارض واستكمال التنبؤات فيما بينها، ولدت من خلال تغيير SGTS.تقوم طريقتنا بتقييم التشابه في احتمالية الجملة (عبر نماذج اللغة المدربة مسبقا) بين الوسائل المتعددة، لعلاج SGTS على قدم المساواة إلا في سياقات قابلة للتبديل.من خلال تطبيق اقتران Logit لتحقيق التوازن في المجموعة المحظورة من مواجهة المصنع لكل حالة، فإننا نحسن مقاييس الإنصاف مع الحفاظ على الأداء النموذجي في اكتشاف خطاب الكراهية.
توضح هذه الورقة التقديم إلى المهمة المشتركة لخطوط خطاب IWSLT 2021 من قبل فريق IMS.نستخدم النماذج الحديثة من النماذج المشتركة مع العديد من أساليب تكبير البيانات ومتعدد المهام والنقل مناهج للتعرف على الكلام التلقائي (ASR) وخطوات الترجمة الآلية (MT) لنظ امنا المتتالي.علاوة على ذلك، فإننا نستكشف أيضا جدوى نموذج ترجمة خط الكلام (ST) بالكامل في حالة كمية مقيدة للغاية من الحقيقة الأرضية المصنفة.يحقق أفضل نظامنا أفضل أداء بين جميع الأنظمة المقدمة للسواحيلية للإنجليزية والفرنسية مع درجات بلو 7.7 و 13.7 على التوالي، وثاني أفضل نتيجة للسواحيلية السواحلية إلى الإنجليزية مع النتيجة بلو 14.9.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا