يعرض و يوصفُ في هذا البحث نموذج كبسترالي للجهاز الصوتي، يقوم النموذج موضوع البحث بنمذجة كل من "المتناغمات الصوتية" و"أضداد المتناغمات الصوتية" .
بهذه الطريقة نحصل على نموذج أدق من نموذج التنبؤ الخطي الذي يقوم فقط بنمذجة "المتناغمات الصوتية" للجهاز الصوتي.
من أجل التحويل العكسي اِستُخدِم التابع الأسي، و لما كان من الصعب تنفيذ هذا التابع بواسطة معدل إشارة رقمي. فقد اِستُخدِمت طريقة النشر إلى كسور متتابعة من أجل تقريب التابع الاسي و جعل تنفيذه ممكناً على المعالج الرقمي.
نُفِّذ تابع النقل الذي استخدم لتمثيل التابع الأسي باستخدام مرشح رقمي من النوع IIR بحيث يتضمن هذا المرشح في فروعه مرشحات رقمية من النوع FIR. معاملات مرشحات FIR كانت ببساطة معاملات حقيقية لكبستروم الكلام. و اِفْتُرِضت معادلات فرقية في فراغ الحالة و تطبيقها على معالج إشارة رقمي من شركة موتورولا ذي فاصلة ثابتة. في النهاية قُيمت نتائج تنفيذ النموذج على معالج إشارة رقمي؛ و ذلك لحروف مختارة، صوتية و لاصوتية.
In this paper we describe a cepstral model of the vocal tract which models both formants and antiformants.
The investigated model is more precise compared to the linear prediction model, which models
only the formants of the vocal tract. The exponential function is used for the inverse transformation.
However, it is difficult to implement this function on a digital signal processor. To solve this issue we use a
continued fraction expansion to approximate the exponential function. The transfer function that
approximates the exponential function is realized by using the Infinite Impulse Response (IIR) digital
filter, in which branches type Finite Impulse Response (FIR) digital filters are included. The coefficients
of the FIR digital filters are just the coefficients of the real speech cepstrum. The state-space difference
equations are proposed and implemented on a DSP56300 fixed-point digital signal processor (Motorola).
Finally, the results of the digital signal processor implementation for chosen vowels and consonants are
evaluated.
Artificial intelligence review:
Research summary
في هذه الورقة، يصف الدكتور جعفر الخيّر والدكتور زدينك سميكال نموذجًا جديدًا للمسار الصوتي يعتمد على التحليل السبيكتري (Cepstral Analysis) والذي يمكنه نمذجة كل من الفورمانتات (Formants) والأنتي-فورمانتات (Antiformants). يتميز هذا النموذج بدقة أعلى مقارنةً بنموذج التنبؤ الخطي (LPC) الذي يقتصر على نمذجة الفورمانتات فقط. يستخدم النموذج الجديد دالة الأسية للتحويل العكسي، ولكن نظرًا لصعوبة تنفيذ هذه الدالة على معالج الإشارة الرقمية، تم استخدام توسع الكسر المستمر لتقريب الدالة الأسية. يتم تحقيق دالة التحويل التي تقرب الدالة الأسية باستخدام مرشح الاستجابة النبضية غير المحدودة (IIR) الذي يتضمن مرشحات الاستجابة النبضية المحدودة (FIR). تم اقتراح وتنفيذ معادلات الفضاء الحالة على معالج الإشارة الرقمية DSP56300 من موتورولا. في النهاية، تم تقييم نتائج تنفيذ معالج الإشارة الرقمية للأصوات المختارة من الحروف المتحركة والحروف الساكنة.
Critical review
دراسة نقدية: تقدم هذه الورقة إسهامًا مهمًا في مجال نمذجة المسار الصوتي لتحويل النص إلى كلام، حيث تقدم نموذجًا أكثر دقة من النماذج التقليدية. ومع ذلك، يمكن الإشارة إلى بعض النقاط التي قد تحتاج إلى مزيد من البحث والتطوير. على سبيل المثال، قد تكون هناك تحديات في تنفيذ النموذج على معالجات الإشارة الرقمية الأخرى غير DSP56300، مما يتطلب تعديلات إضافية. كما أن الورقة تركز بشكل كبير على الجوانب التقنية دون تقديم تحليل كافٍ للأداء العملي للنموذج في تطبيقات حقيقية لتحويل النص إلى كلام. قد يكون من المفيد أيضًا دراسة تأثير النموذج على جودة الصوت الناتج ومدى قبوله من قبل المستخدمين النهائيين.
Questions related to the research
-
ما هو الفرق الرئيسي بين النموذج المقترح ونموذج التنبؤ الخطي (LPC)؟
النموذج المقترح يمكنه نمذجة كل من الفورمانتات والأنتي-فورمانتات، بينما نموذج التنبؤ الخطي (LPC) يقتصر على نمذجة الفورمانتات فقط.
-
لماذا تم استخدام توسع الكسر المستمر في النموذج المقترح؟
تم استخدام توسع الكسر المستمر لتقريب الدالة الأسية التي يصعب تنفيذها على معالج الإشارة الرقمية.
-
ما هي الفائدة الرئيسية لاستخدام مرشحات IIR وFIR في النموذج؟
استخدام مرشحات IIR وFIR يمكن من تحقيق دالة التحويل التي تقرب الدالة الأسية بدقة عالية، مما يساعد في نمذجة المسار الصوتي بشكل أكثر دقة.
-
ما هي التحديات التي قد تواجه تنفيذ النموذج على معالجات الإشارة الرقمية الأخرى؟
قد تتطلب تنفيذ النموذج على معالجات الإشارة الرقمية الأخرى تعديلات إضافية في معادلات الفضاء الحالة وبرامج التجميع، مما قد يزيد من تعقيد العملية.
References used
VÍCH,R., SMÉKAL,Z. All-Pole and Zero- Pole Speech Modelling (Invited Paper). In Proceedings of the International Conference „BIOSIGNÁL ‘98“. June 23-25, 1998, Brno, Czech Republic, pp.196-199. ISBN 80-214- 1169-4
VÍCH,R. PŘIBIL,J. SMÉKAL,Z,: New Cepstral Zero-Pole Vocal Tract Models for TTS. In Proceedings of the International Conference EUROCON '2001, July 7-9, 2001, Bratislava, Slovakia, pp.459-462
(KHOWANSKYI, A.N.: Application of Continued Fractions and Their Generalizations in Numerical Analysis. State Publishing House for Engineering and Theoretical Literature. Moscow 1956. (In Russian
In this research, some of audio signal properties have been studied according to the
speaker's vocal tract shape. A database of audio files has been recorded. These files belong
to 57 men whose age between 35 and 45. All speakers came from the same
With the growing popularity of smart speakers, such as Amazon Alexa, speech is becoming one of the most important modes of human-computer interaction. Automatic speech recognition (ASR) is arguably the most critical component of such systems, as erro
The National Virtual Translation Center (NVTC) seeks to acquire human language technology (HLT) tools that will facilitate its mission to provide verbatim English translations of foreign language audio and video files. In the text domain, NVTC has be
In the present work, we present our Arabic Semi-Syllable Synthesizer. The work consists of seven steps: (1) building a Semi-Syllable Speech Database for Arabic Semi-Syllable Synthesizer, (2) building the Natural Language Processing Module which compr
This paper describes our contribution to the Shared Task ReproGen by Belz et al. (2021), which investigates the reproducibility of human evaluations in the context of Natural Language Generation. We selected the paper Generation of Company descriptio