ملخص البحث
يتناول هذا البحث بناء نظام للتعرف على الكلمات المعزولة باستخدام نماذج ماركوف المخفية (HMM) وتقنية Mel Frequency Cepstral Coefficients (MFCC). يهدف النظام إلى مساعدة مرضى الشلل الرباعي في التفاعل مع الحاسب من خلال التعرف على الأرقام الإنجليزية. تم جمع 2000 عينة صوتية من 20 شخصًا، وتمت معالجة هذه البيانات للتخلص من الضجيج باستخدام تقنية MFCC لاستخراج 12 سمة لكل إشارة. ثم تم فهرسة هذه السمات باستخدام التكميم الشعاعي للحصول على فهرس مكون من 130 عنقودًا، والذي يستخدم كدخل لنموذج ماركوف المخفي الذي تم تدريبه على عينات التدريب. حقق النظام دقة تصل إلى 86%. يشمل البحث دراسة تفصيلية لمراحل التعرف على الكلام، بدءًا من التسجيل ومعالجة الإشارة، مرورًا باستخراج السمات، وصولًا إلى التكميم الشعاعي وتوليد الفهرس، وأخيرًا استخدام نماذج ماركوف المخفية في التعرف على الكلمات.
قراءة نقدية
دراسة نقدية: على الرغم من أن البحث يقدم نظامًا فعالًا للتعرف على الكلمات المعزولة باستخدام نماذج ماركوف المخفية وتقنية MFCC، إلا أن هناك بعض النقاط التي يمكن تحسينها. أولاً، يمكن زيادة عدد عينات التدريب وتنويعها لتغطية أكبر شريحة ممكنة من الأصوات البشرية، مما يزيد من دقة النظام. ثانيًا، يمكن دمج تقنيات أخرى لاستخراج السمات مثل DTW أو الشبكات العصبية لتحسين نتائج التدريب. ثالثًا، يمكن تحسين معالجة الإشارة بشكل أكبر للتخلص من الضجيج بشكل أفضل. وأخيرًا، يمكن دراسة تأثير استخدام نماذج ماركوف المخفية في لغات أخرى غير الإنجليزية لتوسيع نطاق التطبيق.
أسئلة حول البحث