Do you want to publish a course? Click here

Cepstral Vocal Tract Modelling for Text-To-Speech Synthesis

نموذج "كبسترالي" للجهاز الصوتي لتركيب الصوت من النص المكتوب

1257   0   8   0 ( 0 )
 Publication date 2012
and research's language is العربية
 Created by Shamra Editor




Ask ChatGPT about the research

In this paper we describe a cepstral model of the vocal tract which models both formants and antiformants. The investigated model is more precise compared to the linear prediction model, which models only the formants of the vocal tract. The exponential function is used for the inverse transformation. However, it is difficult to implement this function on a digital signal processor. To solve this issue we use a continued fraction expansion to approximate the exponential function. The transfer function that approximates the exponential function is realized by using the Infinite Impulse Response (IIR) digital filter, in which branches type Finite Impulse Response (FIR) digital filters are included. The coefficients of the FIR digital filters are just the coefficients of the real speech cepstrum. The state-space difference equations are proposed and implemented on a DSP56300 fixed-point digital signal processor (Motorola). Finally, the results of the digital signal processor implementation for chosen vowels and consonants are evaluated.


Artificial intelligence review:
Research summary
في هذه الورقة، يصف الدكتور جعفر الخيّر والدكتور زدينك سميكال نموذجًا جديدًا للمسار الصوتي يعتمد على التحليل السبيكتري (Cepstral Analysis) والذي يمكنه نمذجة كل من الفورمانتات (Formants) والأنتي-فورمانتات (Antiformants). يتميز هذا النموذج بدقة أعلى مقارنةً بنموذج التنبؤ الخطي (LPC) الذي يقتصر على نمذجة الفورمانتات فقط. يستخدم النموذج الجديد دالة الأسية للتحويل العكسي، ولكن نظرًا لصعوبة تنفيذ هذه الدالة على معالج الإشارة الرقمية، تم استخدام توسع الكسر المستمر لتقريب الدالة الأسية. يتم تحقيق دالة التحويل التي تقرب الدالة الأسية باستخدام مرشح الاستجابة النبضية غير المحدودة (IIR) الذي يتضمن مرشحات الاستجابة النبضية المحدودة (FIR). تم اقتراح وتنفيذ معادلات الفضاء الحالة على معالج الإشارة الرقمية DSP56300 من موتورولا. في النهاية، تم تقييم نتائج تنفيذ معالج الإشارة الرقمية للأصوات المختارة من الحروف المتحركة والحروف الساكنة.
Critical review
دراسة نقدية: تقدم هذه الورقة إسهامًا مهمًا في مجال نمذجة المسار الصوتي لتحويل النص إلى كلام، حيث تقدم نموذجًا أكثر دقة من النماذج التقليدية. ومع ذلك، يمكن الإشارة إلى بعض النقاط التي قد تحتاج إلى مزيد من البحث والتطوير. على سبيل المثال، قد تكون هناك تحديات في تنفيذ النموذج على معالجات الإشارة الرقمية الأخرى غير DSP56300، مما يتطلب تعديلات إضافية. كما أن الورقة تركز بشكل كبير على الجوانب التقنية دون تقديم تحليل كافٍ للأداء العملي للنموذج في تطبيقات حقيقية لتحويل النص إلى كلام. قد يكون من المفيد أيضًا دراسة تأثير النموذج على جودة الصوت الناتج ومدى قبوله من قبل المستخدمين النهائيين.
Questions related to the research
  1. ما هو الفرق الرئيسي بين النموذج المقترح ونموذج التنبؤ الخطي (LPC)؟

    النموذج المقترح يمكنه نمذجة كل من الفورمانتات والأنتي-فورمانتات، بينما نموذج التنبؤ الخطي (LPC) يقتصر على نمذجة الفورمانتات فقط.

  2. لماذا تم استخدام توسع الكسر المستمر في النموذج المقترح؟

    تم استخدام توسع الكسر المستمر لتقريب الدالة الأسية التي يصعب تنفيذها على معالج الإشارة الرقمية.

  3. ما هي الفائدة الرئيسية لاستخدام مرشحات IIR وFIR في النموذج؟

    استخدام مرشحات IIR وFIR يمكن من تحقيق دالة التحويل التي تقرب الدالة الأسية بدقة عالية، مما يساعد في نمذجة المسار الصوتي بشكل أكثر دقة.

  4. ما هي التحديات التي قد تواجه تنفيذ النموذج على معالجات الإشارة الرقمية الأخرى؟

    قد تتطلب تنفيذ النموذج على معالجات الإشارة الرقمية الأخرى تعديلات إضافية في معادلات الفضاء الحالة وبرامج التجميع، مما قد يزيد من تعقيد العملية.


References used
VÍCH,R., SMÉKAL,Z. All-Pole and Zero- Pole Speech Modelling (Invited Paper). In Proceedings of the International Conference „BIOSIGNÁL ‘98“. June 23-25, 1998, Brno, Czech Republic, pp.196-199. ISBN 80-214- 1169-4
VÍCH,R. PŘIBIL,J. SMÉKAL,Z,: New Cepstral Zero-Pole Vocal Tract Models for TTS. In Proceedings of the International Conference EUROCON '2001, July 7-9, 2001, Bratislava, Slovakia, pp.459-462
(KHOWANSKYI, A.N.: Application of Continued Fractions and Their Generalizations in Numerical Analysis. State Publishing House for Engineering and Theoretical Literature. Moscow 1956. (In Russian
rate research

Read More

In this research, some of audio signal properties have been studied according to the speaker's vocal tract shape. A database of audio files has been recorded. These files belong to 57 men whose age between 35 and 45. All speakers came from the same academic and social culture. Furthermore, they don't suffer from any problems in hearings and utterance. The vowel database was created in perfect recording conditions. The spent time needed for recording process was about five minutes for each speaker who said the Arabic word " سألتمُونِيهَا " three times. That word is very rich of vowel letters. It composes of the whole Arabic long vowel. Based on the analysis study of the recorded audio signals, the relationship between the formant frequencies and the length of speaker's vocal tract has been studied. The results show an inverse proportion for the first three frequencies F1, f2, F3 and no clear relationship for the two other frequencies F4, F5.
With the growing popularity of smart speakers, such as Amazon Alexa, speech is becoming one of the most important modes of human-computer interaction. Automatic speech recognition (ASR) is arguably the most critical component of such systems, as erro rs in speech recognition propagate to the downstream components and drastically degrade the user experience. A simple and effective way to improve the speech recognition accuracy is to apply automatic post-processor to the recognition result. However, training a post-processor requires parallel corpora created by human annotators, which are expensive and not scalable. To alleviate this problem, we propose Back TranScription (BTS), a denoising-based method that can create such corpora without human labor. Using a raw corpus, BTS corrupts the text using Text-to-Speech (TTS) and Speech-to-Text (STT) systems. Then, a post-processing model can be trained to reconstruct the original text given the corrupted input. Quantitative and qualitative evaluations show that a post-processor trained using our approach is highly effective in fixing non-trivial speech recognition errors such as mishandling foreign words. We present the generated parallel corpus and post-processing platform to make our results publicly available.
The National Virtual Translation Center (NVTC) seeks to acquire human language technology (HLT) tools that will facilitate its mission to provide verbatim English translations of foreign language audio and video files. In the text domain, NVTC has be en using translation memory (TM) for some time and has reported on the incorporation of machine translation (MT) into that workflow (Miller et al., 2020). While we have explored the use of speech-totext (STT) and speech translation (ST) in the past (Tzoukermann and Miller, 2018), we have now invested in the creation of a substantial human-made corpus to thoroughly evaluate alternatives. Results from our analysis of this corpus and the performance of HLT tools point the way to the most promising ones to deploy in our workflow.
In the present work, we present our Arabic Semi-Syllable Synthesizer. The work consists of seven steps: (1) building a Semi-Syllable Speech Database for Arabic Semi-Syllable Synthesizer, (2) building the Natural Language Processing Module which compr ises a Text Pre-processing Module and a Text to Phoneme conversion using Arabic Transcription from Orthographic to Phonemes, (3) followed by a Phoneme to Semi-Syllables Mapping using a Syllabification Expert System, (4) an Acoustic Word Stress Analysis for Continuous Arabic Speech based on the three prosodic parameters (fundamental frequency, intensity, duration) in order to detect stressed syllables.
This paper describes our contribution to the Shared Task ReproGen by Belz et al. (2021), which investigates the reproducibility of human evaluations in the context of Natural Language Generation. We selected the paper Generation of Company descriptio ns using concept-to-text and text-to-text deep models: data set collection and systems evaluation'' (Qader et al., 2018) and aimed to replicate, as closely to the original as possible, the human evaluation and the subsequent comparison between the human judgements and the automatic evaluation metrics. Here, we first outline the text generation task of the paper of Qader et al. (2018). Then, we document how we approached our replication of the paper's human evaluation. We also discuss the difficulties we encountered and which information was missing. Our replication has medium to strong correlation (0.66 Spearman overall) with the original results of Qader et al. (2018), but due to the missing information about how Qader et al. (2018) compared the human judgements with the metric scores, we have refrained from reproducing this comparison.
comments
Fetching comments Fetching comments
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا