Do you want to publish a course? Click here

Analysis Study of Formant Frequencies Changes According to the Speaker's Vocal Tract Shape

دراسة تغيرات ترددات رنين الإشارة الصوتية باختلاف معمارية الجهاز الصوتي للمتحدث

1019   0   29   0 ( 0 )
 Publication date 2017
and research's language is العربية
 Created by Shamra Editor




Ask ChatGPT about the research

In this research, some of audio signal properties have been studied according to the speaker's vocal tract shape. A database of audio files has been recorded. These files belong to 57 men whose age between 35 and 45. All speakers came from the same academic and social culture. Furthermore, they don't suffer from any problems in hearings and utterance. The vowel database was created in perfect recording conditions. The spent time needed for recording process was about five minutes for each speaker who said the Arabic word " سألتمُونِيهَا " three times. That word is very rich of vowel letters. It composes of the whole Arabic long vowel. Based on the analysis study of the recorded audio signals, the relationship between the formant frequencies and the length of speaker's vocal tract has been studied. The results show an inverse proportion for the first three frequencies F1, f2, F3 and no clear relationship for the two other frequencies F4, F5.


Artificial intelligence review:
Research summary
تتناول هذه الدراسة البحثية التغيرات في ترددات الرنين الصوتي (Formant Frequencies) بناءً على معمارية الجهاز الصوتي للمتحدث. تم بناء قاعدة بيانات صوتية تضم ملفات صوتية لـ 57 متحدثًا من الذكور تتراوح أعمارهم بين 35 و 45 عامًا، جميعهم من خلفيات اجتماعية وثقافية متشابهة ولا يعانون من أي مشاكل نطقية أو سمعية. تم تسجيل الملفات الصوتية في بيئة معزولة صوتياً باستخدام كلمة 'سألتمُونيها' التي تحتوي على الحروف الصوتية الطويلة في اللغة العربية. أظهرت النتائج وجود علاقة عكسية بين ترددات النغمات الثلاثة الأولى (F1, F2, F3) وطول المجرى الصوتي، بينما لم تظهر علاقة واضحة بين ترددات النغمتين الرابعة والخامسة (F4, F5) وطول المجرى الصوتي. تم استخدام خوارزمية (MFCC) لاستخلاص السمات الصوتية من التسجيلات. توصي الدراسة بمزيد من البحث في تأثير البنية الفسيولوجية لباقي أجزاء جهاز النطق على ترددات الرنين الصوتي.
Critical review
دراسة نقدية: تعتبر هذه الدراسة خطوة مهمة في فهم العلاقة بين معمارية الجهاز الصوتي وترددات الرنين الصوتي، إلا أنها تقتصر على عينة محددة من المتحدثين الذكور في فئة عمرية معينة ومن خلفيات اجتماعية وثقافية متشابهة. قد يكون من المفيد توسيع نطاق الدراسة لتشمل متحدثين من مختلف الأعمار والجنس والخلفيات الثقافية للحصول على نتائج أكثر شمولية. كما أن الدراسة لم تتناول تأثير العوامل الأخرى مثل الحالة النفسية أو الصحية للمتحدثين على ترددات الرنين الصوتي، وهو ما يمكن أن يكون له تأثير كبير. بالإضافة إلى ذلك، يمكن تحسين دقة النتائج باستخدام تقنيات تسجيل وتحليل أكثر تطوراً.
Questions related to the research
  1. ما هي العلاقة بين ترددات النغمات الثلاثة الأولى وطول المجرى الصوتي؟

    أظهرت الدراسة وجود علاقة عكسية بين ترددات النغمات الثلاثة الأولى (F1, F2, F3) وطول المجرى الصوتي، حيث تنخفض ترددات هذه النغمات بزيادة طول المجرى الصوتي.

  2. ما هي الكلمة التي استخدمت في تسجيل الملفات الصوتية للدراسة؟

    تم استخدام كلمة 'سألتمُونيها' في تسجيل الملفات الصوتية للدراسة، وهي كلمة تحتوي على الحروف الصوتية الطويلة في اللغة العربية.

  3. ما هي الخوارزمية المستخدمة لاستخلاص السمات الصوتية من التسجيلات؟

    تم استخدام خوارزمية (MFCC) لاستخلاص السمات الصوتية من التسجيلات.

  4. هل أظهرت الدراسة علاقة واضحة بين ترددات النغمتين الرابعة والخامسة وطول المجرى الصوتي؟

    لا، لم تظهر الدراسة علاقة واضحة بين ترددات النغمتين الرابعة والخامسة (F4, F5) وطول المجرى الصوتي.


References used
M. E. Ayadi , M. S. Kamel , F. Karray, “Survey on Speech Emotion Recognition: Features, Classification Schemes, And Databases”, Pattern Recognition 44, PP.572-587, 2011
I. Chiriacescu , “Automatic Emotion Analysis Based On Speech” , M.Sc. THESIS Delft University of Technology, 2009
Nitin Thapliyal , Gargi Amoli “Speech based Emotion Recognition with Gaussian Mixture Model” international Journal of Advanced Research in Computer Engineering & Technology Volume 1, Issue 5, July 2012
rate research

Read More

In this paper we describe a cepstral model of the vocal tract which models both formants and antiformants. The investigated model is more precise compared to the linear prediction model, which models only the formants of the vocal tract. The expone ntial function is used for the inverse transformation. However, it is difficult to implement this function on a digital signal processor. To solve this issue we use a continued fraction expansion to approximate the exponential function. The transfer function that approximates the exponential function is realized by using the Infinite Impulse Response (IIR) digital filter, in which branches type Finite Impulse Response (FIR) digital filters are included. The coefficients of the FIR digital filters are just the coefficients of the real speech cepstrum. The state-space difference equations are proposed and implemented on a DSP56300 fixed-point digital signal processor (Motorola). Finally, the results of the digital signal processor implementation for chosen vowels and consonants are evaluated.
Ninety urin samples were taken from patients suffering from urinary tract infection .the purpose was to isolate and identify Ecoli. After cultural and biochemical diagnosis,[47] isolates had been obtained with [63.5%] for E-coli out of [74] samples that had bacterial growth.
Compacting hot mixes asphalt (HMA) at low temperatures or mixing it in the asphalt at high temperatures is a constant source of concern to researchers, as compacting and mixing at non-ideal temperatures leads to adverse results, which negatively affect the properties of asphalt concrete and lead to problems paving.
All the well logging reinterpretation by using the new softwares, cores analysis and results of seismic 2D and 3D surveys allowed to identify the reservoir characteristics of Kurachina Dolomite Formation of middle Triassic, for two zones (C2, D1) in Jihar field and its affect on hydrocarbon potential in this area. It's found that C2 reservoir consist mostly of dolomite and small amount of shale and anhydrite, fractured and all the fractures are full of organic materials, calcite, anhydrite, silica and little amount of stilolite, while there is succession of limestone and fossil remains, in some places there is shally dolomite. Whereas D1 reservoir is mostly crystalline limestone and the fractures filled with dolomite.
comments
Fetching comments Fetching comments
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا