ترغب بنشر مسار تعليمي؟ اضغط هنا

تعد أنظمة التعرف السمعية البصرية التي تعتمد على صوت و حركة شفاه المتكلم من أهم أنظمة التعرف على الكلام. و قد تم تطوير العديد من التقنيات المختلفة من حيث الطرائق المستخدمة في استخراج السمات و طرائق التصنيف. يقترح البحث إنشاء نظام للتعرف على الكلمات المعزولة بالاعتماد السمات السمعية المستخرجة من فيديوهات منطوقة لكلمات باللغة العربية في بيئة خالية من الضجيج، و من ثم إضافة مكون الطاقة و المشتقات التفاضلية في مرحلة استخراج السمات لخوارزمية معاملات تردد الميل.
تمَّ في هذا البحث اقتراح معيار لدراسة خصائص إشارة الصوت لكل من صنفي المدخنين و غير المدخنين، إذ تمَّ بناء قاعدة بيانات تضم ملفات صوتية تعود إلى 12 شخص سوري (6 أشخاص مدخنين و 6 أشخاص غير مدخنين)، تتراوح أعمار جميع الأشخاص بين 35 و 45 عام، جميعهم ذكور و يعيشون في مناطق ريفية متجاورة. استغرقت عملية تسجيل الملفات الصوتية ثلاث ساعات، حيث لفظ جميع المتحدثين جملة / أَنَاْ أُحِبُّ سُوْرِيْة /، و هي جملة غنية صوتياً تشمل جميع الأحرف الصوتية الطويلة (الألف و الواو و الياء) و الحروف الصوتية القصيرة (الفتحة و الضمة و الكسرة). اعتماداً على التسجيلات الناتجة تمَّ توليد المثلثات الصوتية الطويلة و القصيرة، و هي مثلثات هندسية رؤوسها تمثل قيم ترددات توافقيات المجرى الصوتي الممتد من الحبال الصوتية إلى الشفاه و تسمى النغمات (Formants)، حيث تمَّ توليد المثلثات الصوتية الطويلة (AAIIUU) في 10 مستويات، و كذلك المثلثات الصوتية القصيرة (AIU) في 10 مستويات؛ و بذلك نتج 20 مثلث صوتي لكل شخص. تمَّ في كل مستوي حساب المسافة بين جميع مراكز المثلثات الصوتية و اختيار المسافة الأدنى (d)، فيكون المستوي ذو القيمة الأعظمية للمسافة (d) هو المستوي الممثل للمثلث الصوتي الأنسب لتمييز المدخنين من غير المدخنين، و قد تحقق ذلك بالنسبة للمثلثين AIU35 و .AAIIUU45.
الغاية من هذا البحث بناء نظام لتصنيف نطق الأرقام الانكليزية وذلك بالاعتماد على نماذج ماركوف المخفية في التصنيف وذلك بالاعتماد على طيف الإشارة في استخراج سمات الإشارات
تشكل قواعد البيانات الصوتية حجر الأساس في بناء نظم النطق الآلي و التعرف الآلي على الكلام و على المتكلم باختلاف اللغات و اللهجات، و تكون عناصر قاعدة البيانات الصوتية عادةً ملفات صوتية سبق أن سجلت لأصوات أشخاص باللغة أو اللهجة المطلوبة، و كلما ذخرت قاع دة البيانات الصوتية بعناصر شاملة كلما أسهم ذلك في إنتاج أنظمة تخاطب مع الآلة ذات أداء متميز. و نظراً لعدم توفر قاعدة بيانات صوتية للهجات السورية؛ تمَّ في البحث بإنشاء قاعدة بيانات للصوتيات السورية، ضمت ستة عشر متطوع و متطوعة من مناطق سورية مختلفة اللهجة سُجلت أصواتهم في ظروف تسجيل مختلفة؛ و ذلك لدراسة تأثير تنوع اللهجات و اختلاف الجنس و ظروف التسجيل على مساحات المضلعات الصوتية. استثمر هذا البحث قاعدة البيانات الصوتية المُنجزة في مجال توليد و تحليل مضلعات الصوتيات السورية، و بالتالي تمَّ الحصول 64 مضلع صوتي تعود إلى 16 متحدث،حيث أن المضلع الصوتي هو مضلع هندسي رؤوسه تمثل قيم ترددات توافقيات المجرى الصوتي الممتد من الحبال الصوتية إلى الشفاه و تسمى النغمات ((Formants، و مساحة المضلع الصوتي الناتج تمثل مساحة المجال الصوتي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا