تمَّ في هذا البحث دراسة تغيرات بعض خصائص الإشارة الصوتية تبعاً لعامل البنية التشريحية للجهاز الصوتي للمتحدث، إذ تمَّ بناء قاعدة بيانات تضم ملفات صوتية تعود إلى 57 متحدث بالغ تتراوح أعمارهم بين 35 و 45 عام جميعهم ذكور، جميع المتحدثين من خلفيات اجتماعي
ة و ثقافية متقاربة، و لا يعانون من أي عيوب نطقية أو سمعية.
سُجلت الملفات الصوتية المُضمنة في قاعدة البيانات ضمن شروط تسجيل مثالية، حيث تمً التسجيل في بيئة معزولة صوتياً و بحضور تقني صوت و خبير صوتيات، و استغرق التسجيل لكل متحدث حوالي خمس دقائق لفظ فيها الحروف الصوتية العربية (الألف و الواو و الياء) من خلال لفظه لكلمة "سألتمُونِيهَا" ثلاث مرات متتالية.
اعتماداً على تحليل التسجيلات الصوتية الناتجة تمَّ رصد التغيرات الحاصلة في قيم ترددات توافقيات المجرى الصوتي الممتد من الحبال الصوتية إلى الشفاه و المسماة النغمات (Formants)، حيث أن الأبعاد و الشكل الفسيولوجي للجهاز الصوتي المتعلق بالاصطناع العام للجسم يعتبر من أهم المعلومات التي يمكن التنبؤ بها من تحليل الإشارة الصوتية. لقد أظهرت نتائج هذا البحث وجود تناسباً عكسياً بين قيم ترددات النغمات الثلاثة الأولى F1, F2, F3 و بين طول المجرى الصوتي، بينما لا توجد علاقة واضحة بين ترددات النغمتين الرابعة و الخامسة F4, F5 و بين طول المجرى الصوتي (Vocal Tract.
تعد أنظمة التعرف السمعية البصرية التي تعتمد على صوت و حركة شفاه المتكلم من أهم
أنظمة التعرف على الكلام. و قد تم تطوير العديد من التقنيات المختلفة من حيث الطرائق
المستخدمة في استخراج السمات و طرائق التصنيف.
يقترح البحث إنشاء نظام للتعرف على الكلمات
المعزولة بالاعتماد السمات السمعية
المستخرجة من فيديوهات منطوقة لكلمات باللغة العربية في بيئة خالية من الضجيج، و من ثم
إضافة مكون الطاقة و المشتقات التفاضلية في مرحلة استخراج السمات لخوارزمية معاملات تردد الميل.
تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة التي دخلت بقوة في مجالات الحياة المختلفة سواء الطبية أو الأمنية أو الصناعية. و بناءً عليه تم تطوير العديد من الأنظمة المعتمدة على طرق مختلفة في استخلاص السمات و التصنيف.
في هذا البحث تم إنشاء ثلاث
ة أنظمة للتعرف على الكلام، تختلف عن بعضها البعض بالطرق المستخدمة في مرحلة استخلاص السمات، حيث استخدم النظام الأول خوارزمية MFCC بينما استخدم النظام الثاني خوارزمية LPCC أما النظام الثالث فاستخدم خوارزمية PLP. تشترك هذه الأنظمة بطريقة التصنيف حيث استخدمت خوارزمية الـHMM كمصنف.
في البداية تم دراسة و تقييم أداء عملية التعرف على الكلام للأنظمة الثلاثة السابقة المقترحة منفردةً. بعد ذلك تم تطبيق خوارزمية الجمع على كل زوج من الأنظمة المدروسة و ذلك لدراسة أثر خوارزمية الجمع في تحسين التعرف على الكلام.
تم اعتماد نوعين من الأخطاء، الأخطاء التزامنية (simultaneous errors) و الأخطاء الاعتمادية ((dependent errors، كوحدة مقارنة لدراسة فعالية خوارزمية الجمع في تحسين أداء عملية التعرف على الكلام. يتبين من نتائج المقارنة أن أفضل نسبة تعرف على الكلام تم الحصول عليها في حالة جمع الخوارزميتان MFCC و PLP حيث تم الحصول على معدل تعرف 93.4%.
تمَّ في هذا البحث اقتراح معيار لدراسة خصائص إشارة الصوت لكل من صنفي المدخنين و غير المدخنين، إذ تمَّ بناء قاعدة بيانات تضم ملفات صوتية تعود إلى 12 شخص سوري (6 أشخاص مدخنين و 6 أشخاص غير مدخنين)، تتراوح أعمار جميع الأشخاص بين 35 و 45 عام، جميعهم ذكور
و يعيشون في مناطق ريفية متجاورة.
استغرقت عملية تسجيل الملفات الصوتية ثلاث ساعات، حيث لفظ جميع المتحدثين جملة / أَنَاْ أُحِبُّ سُوْرِيْة /، و هي جملة غنية صوتياً تشمل جميع الأحرف الصوتية الطويلة (الألف و الواو و الياء) و الحروف الصوتية القصيرة (الفتحة و الضمة و الكسرة).
اعتماداً على التسجيلات الناتجة تمَّ توليد المثلثات الصوتية الطويلة و القصيرة، و هي مثلثات هندسية رؤوسها تمثل قيم ترددات توافقيات المجرى الصوتي الممتد من الحبال الصوتية إلى الشفاه و تسمى النغمات (Formants)، حيث تمَّ توليد المثلثات الصوتية الطويلة (AAIIUU) في 10 مستويات، و كذلك المثلثات الصوتية القصيرة (AIU) في 10 مستويات؛ و بذلك نتج 20 مثلث صوتي لكل شخص. تمَّ في كل مستوي حساب المسافة بين جميع مراكز المثلثات الصوتية و اختيار المسافة الأدنى (d)، فيكون المستوي ذو القيمة الأعظمية للمسافة (d) هو المستوي الممثل للمثلث الصوتي الأنسب لتمييز المدخنين من غير المدخنين، و قد تحقق ذلك بالنسبة للمثلثين AIU35 و .AAIIUU45.
الغاية من هذا البحث بناء نظام لتصنيف نطق الأرقام الانكليزية وذلك بالاعتماد على نماذج ماركوف المخفية في التصنيف وذلك بالاعتماد على طيف الإشارة في استخراج سمات الإشارات
يشتمل التعرف على الصوت قسمين أساسيين و هما التعرف على الكلام و التعرف على المتكلم، حيث تعد عمليات التعرف هذه من أهم التقنيات الحديثة و قد تم تطوير العديد من الأنظمة التي تختلف بالطرق المستخدمة في استخراج السمات و طرق التصنيف لتدعم أنظمة تعرف من هذا ا
لنوع.
اشتملت الدراسة في هذا البحث على القسمين السابقين، حيث تم تصميم نظام تعرف على المتكلم و أوامره الصوتية و استخدام عدة خوارزميات متكاملة لإنجاز البحث. قمنا بإجراء دراسة تحليلية لخوارزمية Mel Frequency Cepstral Coefficients ((MFCC المستخدمة في استخراج السمات، و تمت دراسة بارامترين خاصين بهذه الخوارزمية هما عدد المرشحات في بنك المرشحات و عدد السمات المأخوذة من كل إطار و علاقة هذين البارامترين ببعضهما و مدى تأثير قيمتهما على نسب التعرف. و تم استخدام الشبكات العصبية ذات التغذية الأمامية و الانتشار الخلفي للخطأ Forwarding back propagation Neural Networks (FFBPNN)Feed كمصنف و حللنا أداء الشبكة للوصول إلى أفضل خصائص و مكونات محققة عملية التعرف. كما تمت دراسة خوارزمية Endpoint المستخدمة لإزالة فترات الصمت و تأثيرها في نسب التعرف على الصوت.
تشكل قواعد البيانات الصوتية حجر الأساس في بناء نظم النطق الآلي و التعرف الآلي على الكلام و على المتكلم باختلاف اللغات و اللهجات، و تكون عناصر قاعدة البيانات الصوتية عادةً ملفات صوتية سبق أن سجلت لأصوات أشخاص باللغة أو اللهجة المطلوبة، و كلما ذخرت قاع
دة البيانات الصوتية بعناصر شاملة كلما أسهم ذلك في إنتاج أنظمة تخاطب مع الآلة ذات أداء متميز.
و نظراً لعدم توفر قاعدة بيانات صوتية للهجات السورية؛ تمَّ في البحث بإنشاء قاعدة بيانات للصوتيات السورية، ضمت ستة عشر متطوع و متطوعة من مناطق سورية مختلفة اللهجة سُجلت أصواتهم في ظروف تسجيل مختلفة؛ و ذلك لدراسة تأثير تنوع اللهجات و اختلاف الجنس و ظروف التسجيل على مساحات المضلعات الصوتية.
استثمر هذا البحث قاعدة البيانات الصوتية المُنجزة في مجال توليد و تحليل مضلعات الصوتيات السورية، و بالتالي تمَّ الحصول 64 مضلع صوتي تعود إلى 16 متحدث،حيث أن المضلع الصوتي هو مضلع هندسي رؤوسه تمثل قيم ترددات توافقيات المجرى الصوتي الممتد من الحبال الصوتية إلى الشفاه و تسمى النغمات ((Formants، و مساحة المضلع الصوتي الناتج تمثل مساحة المجال الصوتي.