ترغب بنشر مسار تعليمي؟ اضغط هنا

نموذج "كبسترالي" للجهاز الصوتي لتركيب الصوت من النص المكتوب

Cepstral Vocal Tract Modelling for Text-To-Speech Synthesis

1290   0   8   0 ( 0 )
 تاريخ النشر 2012
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يعرض و يوصفُ في هذا البحث نموذج كبسترالي للجهاز الصوتي، يقوم النموذج موضوع البحث بنمذجة كل من "المتناغمات الصوتية" و"أضداد المتناغمات الصوتية" . بهذه الطريقة نحصل على نموذج أدق من نموذج التنبؤ الخطي الذي يقوم فقط بنمذجة "المتناغمات الصوتية" للجهاز الصوتي. من أجل التحويل العكسي اِستُخدِم التابع الأسي، و لما كان من الصعب تنفيذ هذا التابع بواسطة معدل إشارة رقمي. فقد اِستُخدِمت طريقة النشر إلى كسور متتابعة من أجل تقريب التابع الاسي و جعل تنفيذه ممكناً على المعالج الرقمي. نُفِّذ تابع النقل الذي استخدم لتمثيل التابع الأسي باستخدام مرشح رقمي من النوع IIR بحيث يتضمن هذا المرشح في فروعه مرشحات رقمية من النوع FIR. معاملات مرشحات FIR كانت ببساطة معاملات حقيقية لكبستروم الكلام. و اِفْتُرِضت معادلات فرقية في فراغ الحالة و تطبيقها على معالج إشارة رقمي من شركة موتورولا ذي فاصلة ثابتة. في النهاية قُيمت نتائج تنفيذ النموذج على معالج إشارة رقمي؛ و ذلك لحروف مختارة، صوتية و لاصوتية.


ملخص البحث
في هذه الورقة، يصف الدكتور جعفر الخيّر والدكتور زدينك سميكال نموذجًا جديدًا للمسار الصوتي يعتمد على التحليل السبيكتري (Cepstral Analysis) والذي يمكنه نمذجة كل من الفورمانتات (Formants) والأنتي-فورمانتات (Antiformants). يتميز هذا النموذج بدقة أعلى مقارنةً بنموذج التنبؤ الخطي (LPC) الذي يقتصر على نمذجة الفورمانتات فقط. يستخدم النموذج الجديد دالة الأسية للتحويل العكسي، ولكن نظرًا لصعوبة تنفيذ هذه الدالة على معالج الإشارة الرقمية، تم استخدام توسع الكسر المستمر لتقريب الدالة الأسية. يتم تحقيق دالة التحويل التي تقرب الدالة الأسية باستخدام مرشح الاستجابة النبضية غير المحدودة (IIR) الذي يتضمن مرشحات الاستجابة النبضية المحدودة (FIR). تم اقتراح وتنفيذ معادلات الفضاء الحالة على معالج الإشارة الرقمية DSP56300 من موتورولا. في النهاية، تم تقييم نتائج تنفيذ معالج الإشارة الرقمية للأصوات المختارة من الحروف المتحركة والحروف الساكنة.
قراءة نقدية
دراسة نقدية: تقدم هذه الورقة إسهامًا مهمًا في مجال نمذجة المسار الصوتي لتحويل النص إلى كلام، حيث تقدم نموذجًا أكثر دقة من النماذج التقليدية. ومع ذلك، يمكن الإشارة إلى بعض النقاط التي قد تحتاج إلى مزيد من البحث والتطوير. على سبيل المثال، قد تكون هناك تحديات في تنفيذ النموذج على معالجات الإشارة الرقمية الأخرى غير DSP56300، مما يتطلب تعديلات إضافية. كما أن الورقة تركز بشكل كبير على الجوانب التقنية دون تقديم تحليل كافٍ للأداء العملي للنموذج في تطبيقات حقيقية لتحويل النص إلى كلام. قد يكون من المفيد أيضًا دراسة تأثير النموذج على جودة الصوت الناتج ومدى قبوله من قبل المستخدمين النهائيين.
أسئلة حول البحث
  1. ما هو الفرق الرئيسي بين النموذج المقترح ونموذج التنبؤ الخطي (LPC)؟

    النموذج المقترح يمكنه نمذجة كل من الفورمانتات والأنتي-فورمانتات، بينما نموذج التنبؤ الخطي (LPC) يقتصر على نمذجة الفورمانتات فقط.

  2. لماذا تم استخدام توسع الكسر المستمر في النموذج المقترح؟

    تم استخدام توسع الكسر المستمر لتقريب الدالة الأسية التي يصعب تنفيذها على معالج الإشارة الرقمية.

  3. ما هي الفائدة الرئيسية لاستخدام مرشحات IIR وFIR في النموذج؟

    استخدام مرشحات IIR وFIR يمكن من تحقيق دالة التحويل التي تقرب الدالة الأسية بدقة عالية، مما يساعد في نمذجة المسار الصوتي بشكل أكثر دقة.

  4. ما هي التحديات التي قد تواجه تنفيذ النموذج على معالجات الإشارة الرقمية الأخرى؟

    قد تتطلب تنفيذ النموذج على معالجات الإشارة الرقمية الأخرى تعديلات إضافية في معادلات الفضاء الحالة وبرامج التجميع، مما قد يزيد من تعقيد العملية.


المراجع المستخدمة
VÍCH,R., SMÉKAL,Z. All-Pole and Zero- Pole Speech Modelling (Invited Paper). In Proceedings of the International Conference „BIOSIGNÁL ‘98“. June 23-25, 1998, Brno, Czech Republic, pp.196-199. ISBN 80-214- 1169-4
VÍCH,R. PŘIBIL,J. SMÉKAL,Z,: New Cepstral Zero-Pole Vocal Tract Models for TTS. In Proceedings of the International Conference EUROCON '2001, July 7-9, 2001, Bratislava, Slovakia, pp.459-462
(KHOWANSKYI, A.N.: Application of Continued Fractions and Their Generalizations in Numerical Analysis. State Publishing House for Engineering and Theoretical Literature. Moscow 1956. (In Russian
قيم البحث

اقرأ أيضاً

تمَّ في هذا البحث دراسة تغيرات بعض خصائص الإشارة الصوتية تبعاً لعامل البنية التشريحية للجهاز الصوتي للمتحدث، إذ تمَّ بناء قاعدة بيانات تضم ملفات صوتية تعود إلى 57 متحدث بالغ تتراوح أعمارهم بين 35 و 45 عام جميعهم ذكور، جميع المتحدثين من خلفيات اجتماعي ة و ثقافية متقاربة، و لا يعانون من أي عيوب نطقية أو سمعية. سُجلت الملفات الصوتية المُضمنة في قاعدة البيانات ضمن شروط تسجيل مثالية، حيث تمً التسجيل في بيئة معزولة صوتياً و بحضور تقني صوت و خبير صوتيات، و استغرق التسجيل لكل متحدث حوالي خمس دقائق لفظ فيها الحروف الصوتية العربية (الألف و الواو و الياء) من خلال لفظه لكلمة "سألتمُونِيهَا" ثلاث مرات متتالية. اعتماداً على تحليل التسجيلات الصوتية الناتجة تمَّ رصد التغيرات الحاصلة في قيم ترددات توافقيات المجرى الصوتي الممتد من الحبال الصوتية إلى الشفاه و المسماة النغمات (Formants)، حيث أن الأبعاد و الشكل الفسيولوجي للجهاز الصوتي المتعلق بالاصطناع العام للجسم يعتبر من أهم المعلومات التي يمكن التنبؤ بها من تحليل الإشارة الصوتية. لقد أظهرت نتائج هذا البحث وجود تناسباً عكسياً بين قيم ترددات النغمات الثلاثة الأولى F1, F2, F3 و بين طول المجرى الصوتي، بينما لا توجد علاقة واضحة بين ترددات النغمتين الرابعة و الخامسة F4, F5 و بين طول المجرى الصوتي (Vocal Tract.
مع وجود شعبية متزايدة للمتحدثين الذكية، مثل الأمازون اليكسا، أصبح الكلام أحد أهم طرق التفاعل بين الإنسان والحاسوب. يمكن القول إن التعرف التلقائي على التعرف على الكلام (ASR) هو العنصر الأكثر أهمية في هذه الأنظمة، حيث ينتشر أخطاء في التعرف على الكلام إ لى مكونات المصب التي تتحلل بشكل كبير من تجربة المستخدم. طريقة بسيطة وفعالة لتحسين دقة التعرف على الكلام هي تطبيق ما بعد المعالج التلقائي نتيجة التعرف. ومع ذلك، فإن التدريب على معالج ما بعد البيع يتطلب شركة موازية تم إنشاؤها بواسطة Annwotators البشرية، وهي مكلفة وغير قابلة للتحجيم. لتخفيف هذه المشكلة، نقترح النسخ الخلفي (BTS)، وهي طريقة قائمة على الدنيوية التي يمكن أن تنشئ مثل هذه الشركة دون عمل بشري. باستخدام CORPUS RAW، يقوم BTS بتلف النص باستخدام أنظمة تحويل النص إلى كلام (TTS) ونص الكلام إلى النص (STT). بعد ذلك، يمكن تدريب نموذج ما بعد المعالجة على إعادة بناء النص الأصلي مع إعطاء المدخلات التالفة. تبين التقييمات الكمية والنوعية أن المعالج بعد المعالج المدرب باستخدام نهجنا فعال للغاية في إصلاح أخطاء التعرف على الكلام غير تافهة مثل سوء الكلمات الأجنبية. نقدم Corpus الموازي الذي تم إنشاؤه ومنصة ما بعد المعالجة لجعل نتائجنا متاحة للجمهور.
يسعى مركز الترجمة الظاهري الوطني (NVTC) إلى الحصول على أدوات تكنولوجيا اللغة البشرية (HLT) التي ستسهل مهمتها لتوفير ترجمات حرفية باللغة الإنجليزية لملفات الصوت والفيديو اللغوية.في المجال النصي، تستخدم NVTC ذاكرة الترجمة (TM) لبعض الوقت وقد أبلغت عن د مج الترجمة الآلية (MT) في سير العمل (Miller et al.، 2020).بينما لقد استكشفنا استخدام ترجمة الكلام (STT) وترجمة الكلام (stt) في الماضي (Tzoukermann و Miller، 2018)، فقد استثمرنا الآن في إنشاء كائن كبير من البشر من صنع الإنسان لتقييم بدائل بدقة.النتائج من تحليلنا لهذه الشقوق وأداء أدوات HLT تشير إلى الطريق إلى الأكثر واعدة للنشر في سير العمل لدينا.
نقدم في هذا البحث مركب كلام للغة العربية ذا جودة عالية، باستعمال طريقة الضم لأنصاف المقاطع الصوتية. يتألف العمل من سبع مراحل أساسية: بناء القاموس الصوتي لأنصاف المقاطع الصوتية، بناء مكون معالجة اللغة الطبيعية الذي يتكون من وحدة المعالجة المسبقة للن ص واستعمال نظام خبير لتحويل النص المشكول إلى مقابله الصوتي، بناء نظام خبير يعتمد على القواعد لتقطيع سلسلة الصوتيمات لكل من الكلمات و العبارات في الجمل إلى مقاطعها الصوتية و إسناد واصفات كل مقطع وفق خوارزمية خاصة باللغة العربية، دراسة تحليلية صوتية للنبر في الحديث المتواصل لاستخراج أثر المقاطع المنبورة على موسطات التنغيم على مستوى الكلمات و العبارات.
تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة الب يانات التجميع والأنظمة "(Qader et al.، 2018) وتهدف إلى النسخ المتماثل، عن كثب إلى الأصل ممكن، التقييم البشري والمقارنة اللاحقة بين الأحكام الإنسانية ومقاييس التقييم التلقائي. هنا، نقوم أولا بتحديد مهمة جيل النص في ورقة قادر وآخرون. (2018). ثم، نحن نوثق كيف اقتربنا نسخينا من التقييم البشري للورقة. نناقش أيضا الصعوبات التي واجهناها والتي كانت المعلومات مفقودة. النسخ المتماثل لدينا له علاقة متوسطة إلى قوية (0.66 سبيرمان بشكل عام) مع النتائج الأصلية للقادير وآخرون. (2018)، ولكن بسبب المعلومات المفقودة حول مدى قادير وآخرون. (2018) مقارنة الأحكام الإنسانية بدرجات متري، امتنعنا عن إعادة إنتاج هذه المقارنة.
التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا