تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة التي دخلت بقوة في مجالات الحياة المختلفة سواء الطبية أو الأمنية أو الصناعية. و بناءً عليه تم تطوير العديد من الأنظمة المعتمدة على طرق مختلفة في استخلاص السمات و التصنيف.
في هذا البحث تم إنشاء ثلاثة أنظمة للتعرف على الكلام، تختلف عن بعضها البعض بالطرق المستخدمة في مرحلة استخلاص السمات، حيث استخدم النظام الأول خوارزمية MFCC بينما استخدم النظام الثاني خوارزمية LPCC أما النظام الثالث فاستخدم خوارزمية PLP. تشترك هذه الأنظمة بطريقة التصنيف حيث استخدمت خوارزمية الـHMM كمصنف.
في البداية تم دراسة و تقييم أداء عملية التعرف على الكلام للأنظمة الثلاثة السابقة المقترحة منفردةً. بعد ذلك تم تطبيق خوارزمية الجمع على كل زوج من الأنظمة المدروسة و ذلك لدراسة أثر خوارزمية الجمع في تحسين التعرف على الكلام.
تم اعتماد نوعين من الأخطاء، الأخطاء التزامنية (simultaneous errors) و الأخطاء الاعتمادية ((dependent errors، كوحدة مقارنة لدراسة فعالية خوارزمية الجمع في تحسين أداء عملية التعرف على الكلام. يتبين من نتائج المقارنة أن أفضل نسبة تعرف على الكلام تم الحصول عليها في حالة جمع الخوارزميتان MFCC و PLP حيث تم الحصول على معدل تعرف 93.4%.
The speech recognition is one of the most modern technologies, which entered force
in various fields of life, whether medical or security or industrial techniques. Accordingly,
many related systems were developed, which differ from each otherin feature extraction
methods and classification methods.
In this research,three systems have been created for speech recognition.They differ
from each other in the used methods during the stage of features extraction.While the first
system used MFCC algorithm, the second system used LPCC algorithm, and the third
system used PLP algorithm.All these three systems used HMM as classifier.
At the first, the performance of the speechrecognitionprocesswas studied and
evaluatedfor all the proposedsystems separately. After that, the combination algorithm was
applied separately on eachpair of the studied system algorithmsin order to study the effect
of using the combination algorithm onthe improvement of the speech recognition process.
Twokinds of errors(simultaneous errors and dependent errors) were usedto evaluate
the complementaryof each pair of the studied systems, and to study the effectiveness of the
combination on improving the performance of speech recognition process. It can be seen
from the results of the comparison that the best improvement ratio of speech recognition
has been obtained in the case of collection MFCC and PLP algorithms with recognition
ratio of 93.4%.
References used
Marius Zbancioc, MihaelaCostin :using neural networks and LPCC to improve speech recognition, International IEEE SCS Conference, Proceedings, Vol. 1, 2003 EX 720, pp. 445 – 448
Levy, C., Linares, G., Nocera, P., Bonastre, J.-F. : Reducing computational and memory cost for cellular phone embedded speech recognition system, Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP '04). IEEE International Conference on (Volume:5 ) , pages(309-12) vol.5 , Print ISBN:9-8484-7803-0
Dimitriadis, Maragos, P. Potamianos:Robust AM-FM Features for Speech Recognition, IEEE signal processing letters, VOL. 12, NO. 9, 2005