بحث متقدم مدعوم من الذكاء الصنعي

مساحة جديدة

اشترك بالحزمة الذهبية واحصل على وصول غير محدود شمرا أكاديميا

تسجيل مستخدم جديد

نموذج "كبسترالي" للجهاز الصوتي لتركيب الصوت من النص المكتوب

Cepstral Vocal Tract Modelling for Text-To-Speech Synthesis

1710 0 8 0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جامعة دمشق ورقة بحثية

تاريخ النشر 2012

والبحث باللغة العربية

تأليف جعفر الخير( باحث ) - زدينك سميكال( باحث )

تمت اﻹضافة من قبل Shamra Editor

كبيستروم الكلام الحقيقي نموذج الجهاز الصوتي معالج الإشارة الرقمية تركيب الصوت من النص المكتوب Real Speech Cepstrum Vocal Tract Model Digital Signal Processor Text-To-Speech Synthesis

قم بزيارة صفحتنا على فيسبوك

‎Shamra Academia - شمرا أكاديميا‎

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

يعرض و يوصفُ في هذا البحث نموذج كبسترالي للجهاز الصوتي، يقوم النموذج موضوع البحث بنمذجة كل من "المتناغمات الصوتية" و"أضداد المتناغمات الصوتية" . بهذه الطريقة نحصل على نموذج أدق من نموذج التنبؤ الخطي الذي يقوم فقط بنمذجة "المتناغمات الصوتية" للجهاز الصوتي. من أجل التحويل العكسي اِستُخدِم التابع الأسي، و لما كان من الصعب تنفيذ هذا التابع بواسطة معدل إشارة رقمي. فقد اِستُخدِمت طريقة النشر إلى كسور متتابعة من أجل تقريب التابع الاسي و جعل تنفيذه ممكناً على المعالج الرقمي. نُفِّذ تابع النقل الذي استخدم لتمثيل التابع الأسي باستخدام مرشح رقمي من النوع IIR بحيث يتضمن هذا المرشح في فروعه مرشحات رقمية من النوع FIR. معاملات مرشحات FIR كانت ببساطة معاملات حقيقية لكبستروم الكلام. و اِفْتُرِضت معادلات فرقية في فراغ الحالة و تطبيقها على معالج إشارة رقمي من شركة موتورولا ذي فاصلة ثابتة. في النهاية قُيمت نتائج تنفيذ النموذج على معالج إشارة رقمي؛ و ذلك لحروف مختارة، صوتية و لاصوتية.

مراجعة الذكاء الصنعي:

قُم بترقية الحساب لمشاهدة المحتوى

ملخص البحث

في هذه الورقة، يصف الدكتور جعفر الخيّر والدكتور زدينك سميكال نموذجًا جديدًا للمسار الصوتي يعتمد على التحليل السبيكتري (Cepstral Analysis) والذي يمكنه نمذجة كل من الفورمانتات (Formants) والأنتي-فورمانتات (Antiformants). يتميز هذا النموذج بدقة أعلى مقارنةً بنموذج التنبؤ الخطي (LPC) الذي يقتصر على نمذجة الفورمانتات فقط. يستخدم النموذج الجديد دالة الأسية للتحويل العكسي، ولكن نظرًا لصعوبة تنفيذ هذه الدالة على معالج الإشارة الرقمية، تم استخدام توسع الكسر المستمر لتقريب الدالة الأسية. يتم تحقيق دالة التحويل التي تقرب الدالة الأسية باستخدام مرشح الاستجابة النبضية غير المحدودة (IIR) الذي يتضمن مرشحات الاستجابة النبضية المحدودة (FIR). تم اقتراح وتنفيذ معادلات الفضاء الحالة على معالج الإشارة الرقمية DSP56300 من موتورولا. في النهاية، تم تقييم نتائج تنفيذ معالج الإشارة الرقمية للأصوات المختارة من الحروف المتحركة والحروف الساكنة.

قراءة نقدية

دراسة نقدية: تقدم هذه الورقة إسهامًا مهمًا في مجال نمذجة المسار الصوتي لتحويل النص إلى كلام، حيث تقدم نموذجًا أكثر دقة من النماذج التقليدية. ومع ذلك، يمكن الإشارة إلى بعض النقاط التي قد تحتاج إلى مزيد من البحث والتطوير. على سبيل المثال، قد تكون هناك تحديات في تنفيذ النموذج على معالجات الإشارة الرقمية الأخرى غير DSP56300، مما يتطلب تعديلات إضافية. كما أن الورقة تركز بشكل كبير على الجوانب التقنية دون تقديم تحليل كافٍ للأداء العملي للنموذج في تطبيقات حقيقية لتحويل النص إلى كلام. قد يكون من المفيد أيضًا دراسة تأثير النموذج على جودة الصوت الناتج ومدى قبوله من قبل المستخدمين النهائيين.

أسئلة حول البحث

ما هو الفرق الرئيسي بين النموذج المقترح ونموذج التنبؤ الخطي (LPC)؟

النموذج المقترح يمكنه نمذجة كل من الفورمانتات والأنتي-فورمانتات، بينما نموذج التنبؤ الخطي (LPC) يقتصر على نمذجة الفورمانتات فقط.
لماذا تم استخدام توسع الكسر المستمر في النموذج المقترح؟

تم استخدام توسع الكسر المستمر لتقريب الدالة الأسية التي يصعب تنفيذها على معالج الإشارة الرقمية.
ما هي الفائدة الرئيسية لاستخدام مرشحات IIR وFIR في النموذج؟

استخدام مرشحات IIR وFIR يمكن من تحقيق دالة التحويل التي تقرب الدالة الأسية بدقة عالية، مما يساعد في نمذجة المسار الصوتي بشكل أكثر دقة.
ما هي التحديات التي قد تواجه تنفيذ النموذج على معالجات الإشارة الرقمية الأخرى؟

قد تتطلب تنفيذ النموذج على معالجات الإشارة الرقمية الأخرى تعديلات إضافية في معادلات الفضاء الحالة وبرامج التجميع، مما قد يزيد من تعقيد العملية.

كلمات مفتاحية

تحليل سبيكتري نمذجة المسار الصوتي معالج الإشارة الرقمية تحويل النص إلى كلام فورمانتات أنتي-فورمانتات مرشحات IIR مرشحات FIR

المراجع المستخدمة

VÍCH,R., SMÉKAL,Z. All-Pole and Zero- Pole Speech Modelling (Invited Paper). In Proceedings of the International Conference „BIOSIGNÁL ‘98“. June 23-25, 1998, Brno, Czech Republic, pp.196-199. ISBN 80-214- 1169-4

VÍCH,R. PŘIBIL,J. SMÉKAL,Z,: New Cepstral Zero-Pole Vocal Tract Models for TTS. In Proceedings of the International Conference EUROCON '2001, July 7-9, 2001, Bratislava, Slovakia, pp.459-462

(KHOWANSKYI, A.N.: Application of Continued Fractions and Their Generalizations in Numerical Analysis. State Publishing House for Engineering and Theoretical Literature. Moscow 1956. (In Russian

قيم البحث

1422 - جامعة تشرين 2017 ورقة بحثية

تمَّ في هذا البحث دراسة تغيرات بعض خصائص الإشارة الصوتية تبعاً لعامل البنية التشريحية للجهاز الصوتي للمتحدث، إذ تمَّ بناء قاعدة بيانات تضم ملفات صوتية تعود إلى 57 متحدث بالغ تتراوح أعمارهم بين 35 و 45 عام جميعهم ذكور، جميع المتحدثين من خلفيات اجتماعي ة و ثقافية متقاربة، و لا يعانون من أي عيوب نطقية أو سمعية. سُجلت الملفات الصوتية المُضمنة في قاعدة البيانات ضمن شروط تسجيل مثالية، حيث تمً التسجيل في بيئة معزولة صوتياً و بحضور تقني صوت و خبير صوتيات، و استغرق التسجيل لكل متحدث حوالي خمس دقائق لفظ فيها الحروف الصوتية العربية (الألف و الواو و الياء) من خلال لفظه لكلمة "سألتمُونِيهَا" ثلاث مرات متتالية. اعتماداً على تحليل التسجيلات الصوتية الناتجة تمَّ رصد التغيرات الحاصلة في قيم ترددات توافقيات المجرى الصوتي الممتد من الحبال الصوتية إلى الشفاه و المسماة النغمات (Formants)، حيث أن الأبعاد و الشكل الفسيولوجي للجهاز الصوتي المتعلق بالاصطناع العام للجسم يعتبر من أهم المعلومات التي يمكن التنبؤ بها من تحليل الإشارة الصوتية. لقد أظهرت نتائج هذا البحث وجود تناسباً عكسياً بين قيم ترددات النغمات الثلاثة الأولى F1, F2, F3 و بين طول المجرى الصوتي، بينما لا توجد علاقة واضحة بين ترددات النغمتين الرابعة و الخامسة F4, F5 و بين طول المجرى الصوتي (Vocal Tract.

قاعدة البيانات الصوتية Vowel database speaker ترددات النغمات المتحدث المجرى الصوتي formant frequencies vocal tract المزيد..

BTS: النسخ الخلفي للمعالج إلى النص إلى النص باستخدام النص إلى كلام إلى النص

750 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

مع وجود شعبية متزايدة للمتحدثين الذكية، مثل الأمازون اليكسا، أصبح الكلام أحد أهم طرق التفاعل بين الإنسان والحاسوب. يمكن القول إن التعرف التلقائي على التعرف على الكلام (ASR) هو العنصر الأكثر أهمية في هذه الأنظمة، حيث ينتشر أخطاء في التعرف على الكلام إ لى مكونات المصب التي تتحلل بشكل كبير من تجربة المستخدم. طريقة بسيطة وفعالة لتحسين دقة التعرف على الكلام هي تطبيق ما بعد المعالج التلقائي نتيجة التعرف. ومع ذلك، فإن التدريب على معالج ما بعد البيع يتطلب شركة موازية تم إنشاؤها بواسطة Annwotators البشرية، وهي مكلفة وغير قابلة للتحجيم. لتخفيف هذه المشكلة، نقترح النسخ الخلفي (BTS)، وهي طريقة قائمة على الدنيوية التي يمكن أن تنشئ مثل هذه الشركة دون عمل بشري. باستخدام CORPUS RAW، يقوم BTS بتلف النص باستخدام أنظمة تحويل النص إلى كلام (TTS) ونص الكلام إلى النص (STT). بعد ذلك، يمكن تدريب نموذج ما بعد المعالجة على إعادة بناء النص الأصلي مع إعطاء المدخلات التالفة. تبين التقييمات الكمية والنوعية أن المعالج بعد المعالج المدرب باستخدام نهجنا فعال للغاية في إصلاح أخطاء التعرف على الكلام غير تافهة مثل سوء الكلمات الأجنبية. نقدم Corpus الموازي الذي تم إنشاؤه ومنصة ما بعد المعالجة لجعل نتائجنا متاحة للجمهور.

النماذج المدربة مسبقا amazon alexa back transcription الأمازون اليكسا النسخ الخلفي صناعة حمض الفوسفور

إنشاء وتقييم Corpus لترجمة الكلام إلى النص والكلام

729 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

يسعى مركز الترجمة الظاهري الوطني (NVTC) إلى الحصول على أدوات تكنولوجيا اللغة البشرية (HLT) التي ستسهل مهمتها لتوفير ترجمات حرفية باللغة الإنجليزية لملفات الصوت والفيديو اللغوية.في المجال النصي، تستخدم NVTC ذاكرة الترجمة (TM) لبعض الوقت وقد أبلغت عن د مج الترجمة الآلية (MT) في سير العمل (Miller et al.، 2020).بينما لقد استكشفنا استخدام ترجمة الكلام (STT) وترجمة الكلام (stt) في الماضي (Tzoukermann و Miller، 2018)، فقد استثمرنا الآن في إنشاء كائن كبير من البشر من صنع الإنسان لتقييم بدائل بدقة.النتائج من تحليلنا لهذه الشقوق وأداء أدوات HLT تشير إلى الطريق إلى الأكثر واعدة للنشر في سير العمل لدينا.

virtual translation center national virtual translation verbatim english translations مركز الترجمة الافتراضية الترجمة الوطنية الافتراضية فرباتي الترجمات الإنجليزية صناعة حمض الفوسفور المزيد..

نحو نظام لتركيب الكلام باللغة العربية من نصوص في المعهد العالي للعلوم التطبيقية و التكنولوجيا باستعمال الضم لأنصاف مقاطع صوتية و تنغيم طبيعي

2188 - المعهد العالي للعلوم التطبيقية والتكنولوجيا 2018 أطروحة دكتوراه

نقدم في هذا البحث مركب كلام للغة العربية ذا جودة عالية، باستعمال طريقة الضم لأنصاف المقاطع الصوتية. يتألف العمل من سبع مراحل أساسية: بناء القاموس الصوتي لأنصاف المقاطع الصوتية، بناء مكون معالجة اللغة الطبيعية الذي يتكون من وحدة المعالجة المسبقة للن ص واستعمال نظام خبير لتحويل النص المشكول إلى مقابله الصوتي، بناء نظام خبير يعتمد على القواعد لتقطيع سلسلة الصوتيمات لكل من الكلمات و العبارات في الجمل إلى مقاطعها الصوتية و إسناد واصفات كل مقطع وفق خوارزمية خاصة باللغة العربية، دراسة تحليلية صوتية للنبر في الحديث المتواصل لاستخراج أثر المقاطع المنبورة على موسطات التنغيم على مستوى الكلمات و العبارات.

اللغة العربية تركيب الكلام الضم لأنصاف مقاطع صوتية تنغيم طبيعي

تودا-استسعة @ Reprogen: إعادة التقرير من التقييم البشري لجيل النص إلى النص إلى النص

1303 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة الب يانات التجميع والأنظمة "(Qader et al.، 2018) وتهدف إلى النسخ المتماثل، عن كثب إلى الأصل ممكن، التقييم البشري والمقارنة اللاحقة بين الأحكام الإنسانية ومقاييس التقييم التلقائي. هنا، نقوم أولا بتحديد مهمة جيل النص في ورقة قادر وآخرون. (2018). ثم، نحن نوثق كيف اقتربنا نسخينا من التقييم البشري للورقة. نناقش أيضا الصعوبات التي واجهناها والتي كانت المعلومات مفقودة. النسخ المتماثل لدينا له علاقة متوسطة إلى قوية (0.66 سبيرمان بشكل عام) مع النتائج الأصلية للقادير وآخرون. (2018)، ولكن بسبب المعلومات المفقودة حول مدى قادير وآخرون. (2018) مقارنة الأحكام الإنسانية بدرجات متري، امتنعنا عن إعادة إنتاج هذه المقارنة.

تمرير كرة القدم باللغة الهولندية shared task reprogen human evaluation مهمة مشتركة التقييم البشري صناعة حمض الفوسفور

سجل دخول لتتمكن من نشر تعليقات

التعليقات

جاري جلب التعليقات

سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

المعهد العالي للعلوم التطبيقية والتكنولوجيا

تفاصيل إضافية المزيد من الجامعات

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

نموذج "كبسترالي" للجهاز الصوتي لتركيب الصوت من النص المكتوب

Cepstral Vocal Tract Modelling for Text-To-Speech Synthesis

اسأل ChatGPT حول البحث

اقرأ أيضاً