دراسة تحليلية لخوارزميتي ( MFCC و ENDPOINT) و مدى تأثيرهما في نسب التعرف على الصوت


الملخص بالعربية

يشتمل التعرف على الصوت قسمين أساسيين و هما التعرف على الكلام و التعرف على المتكلم، حيث تعد عمليات التعرف هذه من أهم التقنيات الحديثة و قد تم تطوير العديد من الأنظمة التي تختلف بالطرق المستخدمة في استخراج السمات و طرق التصنيف لتدعم أنظمة تعرف من هذا النوع. اشتملت الدراسة في هذا البحث على القسمين السابقين، حيث تم تصميم نظام تعرف على المتكلم و أوامره الصوتية و استخدام عدة خوارزميات متكاملة لإنجاز البحث. قمنا بإجراء دراسة تحليلية لخوارزمية Mel Frequency Cepstral Coefficients ((MFCC المستخدمة في استخراج السمات، و تمت دراسة بارامترين خاصين بهذه الخوارزمية هما عدد المرشحات في بنك المرشحات و عدد السمات المأخوذة من كل إطار و علاقة هذين البارامترين ببعضهما و مدى تأثير قيمتهما على نسب التعرف. و تم استخدام الشبكات العصبية ذات التغذية الأمامية و الانتشار الخلفي للخطأ Forwarding back propagation Neural Networks (FFBPNN)Feed كمصنف و حللنا أداء الشبكة للوصول إلى أفضل خصائص و مكونات محققة عملية التعرف. كما تمت دراسة خوارزمية Endpoint المستخدمة لإزالة فترات الصمت و تأثيرها في نسب التعرف على الصوت.

المراجع المستخدمة

CARROLL, T.;COLANGELO, R.;STROTT, T."Bird Call Identifier –Identifying Songs of Bird Species through Digital Signal Processing Techniques". 2010,118
Xue, X."Joint Speech and Speaker Recognition Using Neural Networks".NOVIA-University of applied science. 2013,60
(CHOUDHARY, A.;KSHIRSAGAR,R."Process Speech Recognition System using Artificial Intelligence Technique".(IJSCE) ,ISSN: 2231-2307, Volume-2, Issue-5, 2012,PP(239-242

تحميل البحث