تمَّ في هذا البحث دراسة تغيرات بعض خصائص الإشارة الصوتية تبعاً لعامل البنية التشريحية للجهاز الصوتي للمتحدث، إذ تمَّ بناء قاعدة بيانات تضم ملفات صوتية تعود إلى 57 متحدث بالغ تتراوح أعمارهم بين 35 و 45 عام جميعهم ذكور، جميع المتحدثين من خلفيات اجتماعية و ثقافية متقاربة، و لا يعانون من أي عيوب نطقية أو سمعية.
سُجلت الملفات الصوتية المُضمنة في قاعدة البيانات ضمن شروط تسجيل مثالية، حيث تمً التسجيل في بيئة معزولة صوتياً و بحضور تقني صوت و خبير صوتيات، و استغرق التسجيل لكل متحدث حوالي خمس دقائق لفظ فيها الحروف الصوتية العربية (الألف و الواو و الياء) من خلال لفظه لكلمة "سألتمُونِيهَا" ثلاث مرات متتالية.
اعتماداً على تحليل التسجيلات الصوتية الناتجة تمَّ رصد التغيرات الحاصلة في قيم ترددات توافقيات المجرى الصوتي الممتد من الحبال الصوتية إلى الشفاه و المسماة النغمات (Formants)، حيث أن الأبعاد و الشكل الفسيولوجي للجهاز الصوتي المتعلق بالاصطناع العام للجسم يعتبر من أهم المعلومات التي يمكن التنبؤ بها من تحليل الإشارة الصوتية. لقد أظهرت نتائج هذا البحث وجود تناسباً عكسياً بين قيم ترددات النغمات الثلاثة الأولى F1, F2, F3 و بين طول المجرى الصوتي، بينما لا توجد علاقة واضحة بين ترددات النغمتين الرابعة و الخامسة F4, F5 و بين طول المجرى الصوتي (Vocal Tract.
In this research, some of audio signal properties have been studied according to the
speaker's vocal tract shape. A database of audio files has been recorded. These files belong
to 57 men whose age between 35 and 45. All speakers came from the same academic and
social culture. Furthermore, they don't suffer from any problems in hearings and utterance.
The vowel database was created in perfect recording conditions. The spent time
needed for recording process was about five minutes for each speaker who said the Arabic
word " سألتمُونِيهَا " three times. That word is very rich of vowel letters. It composes of the
whole Arabic long vowel.
Based on the analysis study of the recorded audio signals, the relationship between
the formant frequencies and the length of speaker's vocal tract has been studied. The results
show an inverse proportion for the first three frequencies F1, f2, F3 and no clear
relationship for the two other frequencies F4, F5.
Artificial intelligence review:
Research summary
تتناول هذه الدراسة البحثية التغيرات في ترددات الرنين الصوتي (Formant Frequencies) بناءً على معمارية الجهاز الصوتي للمتحدث. تم بناء قاعدة بيانات صوتية تضم ملفات صوتية لـ 57 متحدثًا من الذكور تتراوح أعمارهم بين 35 و 45 عامًا، جميعهم من خلفيات اجتماعية وثقافية متشابهة ولا يعانون من أي مشاكل نطقية أو سمعية. تم تسجيل الملفات الصوتية في بيئة معزولة صوتياً باستخدام كلمة 'سألتمُونيها' التي تحتوي على الحروف الصوتية الطويلة في اللغة العربية. أظهرت النتائج وجود علاقة عكسية بين ترددات النغمات الثلاثة الأولى (F1, F2, F3) وطول المجرى الصوتي، بينما لم تظهر علاقة واضحة بين ترددات النغمتين الرابعة والخامسة (F4, F5) وطول المجرى الصوتي. تم استخدام خوارزمية (MFCC) لاستخلاص السمات الصوتية من التسجيلات. توصي الدراسة بمزيد من البحث في تأثير البنية الفسيولوجية لباقي أجزاء جهاز النطق على ترددات الرنين الصوتي.
Critical review
دراسة نقدية: تعتبر هذه الدراسة خطوة مهمة في فهم العلاقة بين معمارية الجهاز الصوتي وترددات الرنين الصوتي، إلا أنها تقتصر على عينة محددة من المتحدثين الذكور في فئة عمرية معينة ومن خلفيات اجتماعية وثقافية متشابهة. قد يكون من المفيد توسيع نطاق الدراسة لتشمل متحدثين من مختلف الأعمار والجنس والخلفيات الثقافية للحصول على نتائج أكثر شمولية. كما أن الدراسة لم تتناول تأثير العوامل الأخرى مثل الحالة النفسية أو الصحية للمتحدثين على ترددات الرنين الصوتي، وهو ما يمكن أن يكون له تأثير كبير. بالإضافة إلى ذلك، يمكن تحسين دقة النتائج باستخدام تقنيات تسجيل وتحليل أكثر تطوراً.
Questions related to the research
-
ما هي العلاقة بين ترددات النغمات الثلاثة الأولى وطول المجرى الصوتي؟
أظهرت الدراسة وجود علاقة عكسية بين ترددات النغمات الثلاثة الأولى (F1, F2, F3) وطول المجرى الصوتي، حيث تنخفض ترددات هذه النغمات بزيادة طول المجرى الصوتي.
-
ما هي الكلمة التي استخدمت في تسجيل الملفات الصوتية للدراسة؟
تم استخدام كلمة 'سألتمُونيها' في تسجيل الملفات الصوتية للدراسة، وهي كلمة تحتوي على الحروف الصوتية الطويلة في اللغة العربية.
-
ما هي الخوارزمية المستخدمة لاستخلاص السمات الصوتية من التسجيلات؟
تم استخدام خوارزمية (MFCC) لاستخلاص السمات الصوتية من التسجيلات.
-
هل أظهرت الدراسة علاقة واضحة بين ترددات النغمتين الرابعة والخامسة وطول المجرى الصوتي؟
لا، لم تظهر الدراسة علاقة واضحة بين ترددات النغمتين الرابعة والخامسة (F4, F5) وطول المجرى الصوتي.
References used
M. E. Ayadi , M. S. Kamel , F. Karray, “Survey on Speech Emotion Recognition: Features, Classification Schemes, And Databases”, Pattern Recognition 44, PP.572-587, 2011
I. Chiriacescu , “Automatic Emotion Analysis Based On Speech” , M.Sc. THESIS Delft University of Technology, 2009
Nitin Thapliyal , Gargi Amoli “Speech based Emotion Recognition with Gaussian Mixture Model” international Journal of Advanced Research in Computer Engineering & Technology Volume 1, Issue 5, July 2012
In this paper we describe a cepstral model of the vocal tract which models both formants and antiformants.
The investigated model is more precise compared to the linear prediction model, which models
only the formants of the vocal tract. The expone
The molecular weight (Mw, Mv) variations according to Cole - Cole
representations were studied by applying variable temperature degrees,
dynamic frequencies on a number of polymers: polypropylene (PP) isotactic,
polybutene (PB), polyamide-١٢ (PA-١٢), high density polyethylene (HDPE).
Ninety urin samples were taken from patients suffering from
urinary tract infection .the purpose was to isolate and identify Ecoli.
After cultural and biochemical diagnosis,[47] isolates had been
obtained with [63.5%] for E-coli out of [74] samples that had
bacterial growth.
Compacting hot mixes asphalt (HMA) at low temperatures or mixing it in the asphalt at high temperatures is a constant source of concern to researchers, as compacting and mixing at non-ideal temperatures leads to adverse results, which negatively affect the properties of asphalt concrete and lead to problems paving.
All the well logging reinterpretation by using the new softwares, cores
analysis and results of seismic 2D and 3D surveys allowed to identify the
reservoir characteristics of Kurachina Dolomite Formation of middle Triassic,
for two zones (C2, D1)