في هذه الورقة، نقترح التعديل الطيفي عن طريق شحذ الأشكال وغير من خلال تقليل الميل الطيفي إلى التعرف على خطاب الأطفال حسب أنظمة التعرف على الكلام التلقائي (ASR) المطورة باستخدام خطاب البالغين.في هذا النوع من الحالة غير المعطاة، يتدهور أداء ASR بسبب عدم التطابق الصوتي واللغوي في السمات بين الأطفال والكبار.يتم استخدام الطريقة المقترحة لتحسين الوضوخي للكلام لتعزيز التعرف على خطاب الأطفال باستخدام نموذج صوتي مدرب على خطاب البالغين.في التجارب، يتم استخدام WSJCAM0 و PFSTAR كقواعد بيانات للبالغين وخطاب الأطفال، على التوالي.تتيح التقنية المقترحة تحسنا كبيرا في سياق ASR القائم على DNN-HMM.علاوة على ذلك، نحن نقوم بالتحقق من صحة متانة التقنية من خلال إظهار أنها تنفذ أيضا في ظروف ضوضاء غير متطابقة.
In this paper, we propose spectral modification by sharpening formants and by reducing the spectral tilt to recognize children's speech by automatic speech recognition (ASR) systems developed using adult speech. In this type of mismatched condition, the ASR performance is degraded due to the acoustic and linguistic mismatch in the attributes between children and adult speakers. The proposed method is used to improve the speech intelligibility to enhance the children's speech recognition using an acoustic model trained on adult speech. In the experiments, WSJCAM0 and PFSTAR are used as databases for adults' and children's speech, respectively. The proposed technique gives a significant improvement in the context of the DNN-HMM-based ASR. Furthermore, we validate the robustness of the technique by showing that it performs well also in mismatched noise conditions.
المراجع المستخدمة
https://aclanthology.org/
أظهر العمل الحديث في معالجة اللغة الطبيعية متعددة اللغات تقدما في مهام مختلفة مثل الاستدلال اللغوي الطبيعي والترجمة المشتركة متعددة اللغات. على الرغم من النجاح في تعلم العديد من اللغات، تنشأ التحديات حيث غالبا ما تعزز أنظمة التدريب المتعدد اللغات الأ
لتكن A مصفوفة حقيقية، بحيث rank A = m ≥ 2, و ليكن (ρ (A نصف القطر الطيفي للمصفوفة A.
و في حال كون rank A =m=2 فإن كلا من المتراجحتين (١) و (٢) تؤول إلى مساواة. بالإضافة إلى
ذلك فإنه تم تعميم هذه النتائج في حالة كون A مصفوفة مربعة من المرتبة n و التي مداخلها القطرية
أعداد عقدية.
إن إلغاء الضجيج من الكلام الملوث هو حقل هندسي يدرس التقنيات المستخدمة لاستعادة الإشارة الأصلية من الإشارة الملوثة بأنواع مختلفة من الضجيج مثل الضجيج عريض الحزمة و ضيق الحزمة و أنواع أخرى موجودة بالبيئة و تعتبر تقنية الطرح الطيفي الأبرز في هذا المجال.
تهدف التعرف على علاقة الخطاب الضمني (IDRR) إلى تحديد العلاقات المنطقية بين جملتين مجاورة في الخطاب.تفشل النماذج الحالية في الاستفادة الكاملة من المعلومات السياقية التي تلعب دورا مهما في تفسير كل جملة محلية.في هذه الورقة، فإننا نقترحنا بالتالي شبكة تت
أصبحت الرسوم البيانية المستمدة وتعديل الرسوم البيانية من نص اللغة الطبيعية تقنية أساس متعدد الاستخدامات لاستخراج المعلومات مع التطبيقات في العديد من المواد الفرعية، مثل بناء الرسم البياني الدلالي أو المعرفة الرسم البياني. استخدم العمل الأخير هذه التق