ترغب بنشر مسار تعليمي؟ اضغط هنا

في السنوات الأخيرة، يمكن لنظام توليف الكلام إنشاء خطاب بجودة الكلام العالية. ومع ذلك، لا يزال نظام النص إلى كلام متعدد الكلام (TTS) يتطلب كمية كبيرة من بيانات الكلام لكل مكبر صوت مستهدف. في هذه الدراسة، نود إنشاء نظام TTS متعدد المتكلم من خلال دمج وح دات فرعية في نظام توليف الكلام المصنوع من الشبكة العصبية المصطنعة لتخفيف هذه المشكلة. تتمثل الوحدة الأولى في إضافة مكبر صوت إلى وحدة الترميز لتوليد الكلام في حين أن كمية كبيرة من بيانات الكلام من السماعة المستهدفة ليست ضرورية. بالنسبة لطريقة تضمين المتكلم، في دراستنا، يتم مقارنة طريقتان رئيسيتان لضمان المتكلم، وهي تضمين مكبر الصوت التضمين وإدماج تحويل الصوت، بتحديد ما هو مناسب لنظام TTS الشخصي الخاص بنا. ثانيا، استبدلنا الوحدة النمطية الإضافية التقليدية، التي تم تبنيها لتعزيز تسلسل طيف الإخراج، لزيادة تحسين جودة خطاب الكلام الذي تم إنشاؤه. هنا، يتم استخدام شبكة ما بعد المرشح. أخيرا، أظهرت نتائج التجربة أن تضمين المتكلم مفيد من خلال إضافةه إلى وحدة ترميز ونطق الكلام الناتج ينظر بالفعل إلى السماعة المستهدفة. أيضا، شبكة ما بعد التصفية ليست فقط تحسين جودة الكلام وتعزز أيضا تشابه المتكلم من كلام الكلام الناتج. يمكن لنظام TTS المصمم أن يولد كلام الكلام للمتكلم المستهدف في أقل من 2 ثانية. في المستقبل، نود مزيد من التحقيق في مكافحة قابلية التحكم في معدل التحدث أو حالة المشاعر المتصورة للكلمة التي تم إنشاؤها.
يعرض و يوصفُ في هذا البحث نموذج كبسترالي للجهاز الصوتي، يقوم النموذج موضوع البحث بنمذجة كل من "المتناغمات الصوتية" و"أضداد المتناغمات الصوتية" . بهذه الطريقة نحصل على نموذج أدق من نموذج التنبؤ الخطي الذي يقوم فقط بنمذجة "المتناغمات الصوتية" للجهاز الصوتي. من أجل التحويل العكسي اِستُخدِم التابع الأسي، و لما كان من الصعب تنفيذ هذا التابع بواسطة معدل إشارة رقمي. فقد اِستُخدِمت طريقة النشر إلى كسور متتابعة من أجل تقريب التابع الاسي و جعل تنفيذه ممكناً على المعالج الرقمي. نُفِّذ تابع النقل الذي استخدم لتمثيل التابع الأسي باستخدام مرشح رقمي من النوع IIR بحيث يتضمن هذا المرشح في فروعه مرشحات رقمية من النوع FIR. معاملات مرشحات FIR كانت ببساطة معاملات حقيقية لكبستروم الكلام. و اِفْتُرِضت معادلات فرقية في فراغ الحالة و تطبيقها على معالج إشارة رقمي من شركة موتورولا ذي فاصلة ثابتة. في النهاية قُيمت نتائج تنفيذ النموذج على معالج إشارة رقمي؛ و ذلك لحروف مختارة، صوتية و لاصوتية.
يعد هذا البحث مرحلة من مراحل بناء نظام تركيب الكلام باللغة العربية، و هي مرحلة تحويل النصوص العربية من رموز كتابية إلى رموز صوتية. جرى في هذه المرحلة بناء نظام متكامل خاص باللغة العربية لإجراء التحويل. اعتمد نظام التحويل من رموز كتابية إلى رموز صو تية أساسًا على بنية النظام Orthographic-Phonetic ) TOPH (Transcription الذي يقوم بتحويل الرموز الكتابية إلى رموز صوتية باللغة الفرنسية، و الذي يعتمد مبدأ استخدام القواعد في ذلك.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا