ترغب بنشر مسار تعليمي؟ اضغط هنا

التعديل الطيفي للاعتراف بخطاب الأطفال الظروف المستدامة

Spectral modification for recognition of children's speech undermismatched conditions

174   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقترح التعديل الطيفي عن طريق شحذ الأشكال وغير من خلال تقليل الميل الطيفي إلى التعرف على خطاب الأطفال حسب أنظمة التعرف على الكلام التلقائي (ASR) المطورة باستخدام خطاب البالغين.في هذا النوع من الحالة غير المعطاة، يتدهور أداء ASR بسبب عدم التطابق الصوتي واللغوي في السمات بين الأطفال والكبار.يتم استخدام الطريقة المقترحة لتحسين الوضوخي للكلام لتعزيز التعرف على خطاب الأطفال باستخدام نموذج صوتي مدرب على خطاب البالغين.في التجارب، يتم استخدام WSJCAM0 و PFSTAR كقواعد بيانات للبالغين وخطاب الأطفال، على التوالي.تتيح التقنية المقترحة تحسنا كبيرا في سياق ASR القائم على DNN-HMM.علاوة على ذلك، نحن نقوم بالتحقق من صحة متانة التقنية من خلال إظهار أنها تنفذ أيضا في ظروف ضوضاء غير متطابقة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أظهر العمل الحديث في معالجة اللغة الطبيعية متعددة اللغات تقدما في مهام مختلفة مثل الاستدلال اللغوي الطبيعي والترجمة المشتركة متعددة اللغات. على الرغم من النجاح في تعلم العديد من اللغات، تنشأ التحديات حيث غالبا ما تعزز أنظمة التدريب المتعدد اللغات الأ داء على بعض اللغات على حساب الآخرين. بالنسبة للاعتراف الكوكي المسمى متعدد اللغات (NER)، نقترح تقنية بسيطة تفرق لغات مماثلة من خلال استخدام Agddings من نموذج لغة ملثم مسبقا مسبقا، واكتشاف مجموعات اللغة تلقائيا في مساحة التضمين هذه. على وجه التحديد، نحن نغلق نموذج XLM-Roberta بمهمة تحديد اللغة، واستخدام المدينات من هذا النموذج للتجميع. نقوم بإجراء تجارب في 15 لغة متنوعة في مجموعة بيانات ويكيانز وتظهر تقنياتنا إلى حد كبير ثلاثة خطوط الأساس: (1) تدريب نموذج متعدد اللغات بالاشتراك على جميع اللغات المتاحة، (2) تدريب طراز أحادي لكل لغة، و (3) لغات تجميع لغات الأسرة اللغوية. نقوم أيضا بإجراء التحليلات التي تظهر تحويلا مهدا متعدد اللغات لغات الموارد المنخفضة (Swahili و Yoruba)، على الرغم من تجمعها تلقائيا مع لغات أخرى متباينة على ما يبدو.
لتكن A مصفوفة حقيقية، بحيث rank A = m ≥ 2, و ليكن (ρ (A نصف القطر الطيفي للمصفوفة A. و في حال كون rank A =m=2 فإن كلا من المتراجحتين (١) و (٢) تؤول إلى مساواة. بالإضافة إلى ذلك فإنه تم تعميم هذه النتائج في حالة كون A مصفوفة مربعة من المرتبة n و التي مداخلها القطرية أعداد عقدية.
إن إلغاء الضجيج من الكلام الملوث هو حقل هندسي يدرس التقنيات المستخدمة لاستعادة الإشارة الأصلية من الإشارة الملوثة بأنواع مختلفة من الضجيج مثل الضجيج عريض الحزمة و ضيق الحزمة و أنواع أخرى موجودة بالبيئة و تعتبر تقنية الطرح الطيفي الأبرز في هذا المجال. في هذا البحث سوف نناقش تأثير معاملات خوارزمية الطرح الطيفي المعدلة و طول النافذة الزمنية في تحسين الكلام الملوث بالضجيج عريض الحزمة. تمَ دراسة و تحديد قيم المعاملات المثالية و طول النافذة المثالي عند قيم مختلفة لنسبة الإشارة إلى الضجيج SNR للإشارة الملوثة و هي و تمَ مناقشة 18 حالة عند كل قيمة. أجريت المحاكاة باستخدام برنامج الماتلاب (matlab) و تمت مقارنة النتائج سماعياً و بالاعتماد على تحسين قيمة SNR لكل حالة.
تهدف التعرف على علاقة الخطاب الضمني (IDRR) إلى تحديد العلاقات المنطقية بين جملتين مجاورة في الخطاب.تفشل النماذج الحالية في الاستفادة الكاملة من المعلومات السياقية التي تلعب دورا مهما في تفسير كل جملة محلية.في هذه الورقة، فإننا نقترحنا بالتالي شبكة تت بع السياق في الرسم البياني القائمة على الرسم البياني (شبكة CT) لنموذج سياق الخطاب ل IDRR.تقوم CT-Net أولا بتحويل الخطاب في الرسم البياني لرابطة الفقرة (PAG)، حيث تتبع كل جملة سياقها المرتبطة ارتباطا وثيقا من الخطاب المعقد من خلال أنواع مختلفة من الحواف.بعد ذلك، استخراج CT-NET تمثيل سياقي من PAG من خلال آلية تحديث تم تصميمه خصيصا، مما يمكن أن يدمج بفعالية من كل من دلالات السياق على مستوى الجملة ومستوى الرمز المميز.تشير التجارب على PDTB 2.0 إلى أن شبكة CT-NET أكبر أداء أفضل من النماذج التي نموذجها تقريبا السياق.
أصبحت الرسوم البيانية المستمدة وتعديل الرسوم البيانية من نص اللغة الطبيعية تقنية أساس متعدد الاستخدامات لاستخراج المعلومات مع التطبيقات في العديد من المواد الفرعية، مثل بناء الرسم البياني الدلالي أو المعرفة الرسم البياني. استخدم العمل الأخير هذه التق نية لتعديل الرسوم البيانية المشهد (هو et al. 2020)، من خلال الترميز أولا الرسم البياني الأصلي ثم إنشاء واحد المعدلة بناء على هذا الترميز. في هذا العمل، نوضح أنه يمكننا زيادة الأداء بشكل كبير في هذه المشكلة من خلال صياغة ذلك كملحق رسم بياني بدلا من جيل الرسم البياني. نقترح النموذج الأول لمشكلة امتداد الرسم البياني الناتج استنادا إلى وضع العلامات التسلسل التلقائي. في مجموعات بيانات تعديل الرسم البياني المشهد، يؤدي هذا الصيانة إلى تحسينات في الدقة على أحدث من بين الفنين بين 13 نقطة مئوية 24 نقطة. علاوة على ذلك، نقدم بيانات جديدة مجموعة من المجال الطبي الطبيعي والتي لديها تقلب لغوي أكبر بكثير ورسم رسوم بيانية أكثر تعقيدا من مجموعات بيانات تعديل الرسم البياني المشهد. بالنسبة إلى مجموعة البيانات هذه، فشلت حالة الفن في التعميم، في حين أن طرازنا يمكن أن ينتج تنبؤات ذات مغزى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا