ترغب بنشر مسار تعليمي؟ اضغط هنا

دمج متكلم التضمين وشبكة ما بعد المرشح لتحسين تشابه المتكلم لنظام توليف الكلام المخصص

Incorporating speaker embedding and post-filter network for improving speaker similarity of personalized speech synthesis system

379   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في السنوات الأخيرة، يمكن لنظام توليف الكلام إنشاء خطاب بجودة الكلام العالية. ومع ذلك، لا يزال نظام النص إلى كلام متعدد الكلام (TTS) يتطلب كمية كبيرة من بيانات الكلام لكل مكبر صوت مستهدف. في هذه الدراسة، نود إنشاء نظام TTS متعدد المتكلم من خلال دمج وحدات فرعية في نظام توليف الكلام المصنوع من الشبكة العصبية المصطنعة لتخفيف هذه المشكلة. تتمثل الوحدة الأولى في إضافة مكبر صوت إلى وحدة الترميز لتوليد الكلام في حين أن كمية كبيرة من بيانات الكلام من السماعة المستهدفة ليست ضرورية. بالنسبة لطريقة تضمين المتكلم، في دراستنا، يتم مقارنة طريقتان رئيسيتان لضمان المتكلم، وهي تضمين مكبر الصوت التضمين وإدماج تحويل الصوت، بتحديد ما هو مناسب لنظام TTS الشخصي الخاص بنا. ثانيا، استبدلنا الوحدة النمطية الإضافية التقليدية، التي تم تبنيها لتعزيز تسلسل طيف الإخراج، لزيادة تحسين جودة خطاب الكلام الذي تم إنشاؤه. هنا، يتم استخدام شبكة ما بعد المرشح. أخيرا، أظهرت نتائج التجربة أن تضمين المتكلم مفيد من خلال إضافةه إلى وحدة ترميز ونطق الكلام الناتج ينظر بالفعل إلى السماعة المستهدفة. أيضا، شبكة ما بعد التصفية ليست فقط تحسين جودة الكلام وتعزز أيضا تشابه المتكلم من كلام الكلام الناتج. يمكن لنظام TTS المصمم أن يولد كلام الكلام للمتكلم المستهدف في أقل من 2 ثانية. في المستقبل، نود مزيد من التحقيق في مكافحة قابلية التحكم في معدل التحدث أو حالة المشاعر المتصورة للكلمة التي تم إنشاؤها.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نركز على تحسين جودة الملخص الذي تم إنشاؤه بواسطة أنظمة تلخيص الحوار المبشور العصبي.على الرغم من أن طرازات اللغة المدربة مسبقا تولد نتائج رائعة واعدة، إلا أنها لا تزال تحديا لتلخيص محادثة المشاركين المتعددين منذ أن تتضمن الملخص وصفا للو ضع العام وإجراءات كل مكبر صوت.تقترح هذه الورقة استراتيجيات ذات إشراف ذاتي لتصحيح ما بعد تركز على المتكلم في تلخيص حوار المبادرة.على وجه التحديد، تميز نموذجنا أولا أي نوع من تصحيح المتكلم مطلوب في مشروع ملخص ثم يولد ملخص منقح وفقا للنوع المطلوب.تظهر النتائج التجريبية أن أسلوبنا المقترح بتصحيح مشاريع الملخصات بشكل كاف، ويتم تحسين الملخصات المنقحة بشكل كبير في كل من التقييمات الكمية والنوعية.
بالنسبة للأطفال، أدى النظام المدرب على جثة كبيرة من مكبرات الصوت الكبار أسوأ من النظام المدربين على جثة أصغر بكثير من خطاب الأطفال.هذا بسبب عدم تطابق الصوت بين التدريب واختبار البيانات.لالتقاط المزيد من التقلبات الصوتية، قامنا بتدريب نظام مشترك مع بي انات مختلطة من البالغين والأطفال.ينجذب النظام المشترك إلى أفضل أغاني للأطفال دون تدهور للبالغين.وبالتالي، فإن النظام الفردي المدرب مع البيانات المختلطة ينطبق على التحقق من السماعات لكل من البالغين والأطفال.
كمية المنتج (PQ) هي تقنية واستخدامها على نطاق واسع لاسترجاع الإعلانات المخصصة. تقترح الدراسات الحديثة PQ خاضعة للإشراف، حيث يمكن تدريب نماذج التضمين والتجميل بشكل مشترك مع التعلم الخاضع للإشراف. ومع ذلك، هناك نقص في الصياغة المناسبة لهدف التدريب المش ترك؛ وبالتالي، فإن التحسينات حول الأساس غير المشرف السابق محدودة في الواقع. في هذا العمل، نقترح قياس كمية المنتج الموجهة نحو المطابقة (MOPQ)، حيث يتم صياغة فقدان MultioLli Outlastive MultioLli مهدفا. مع تقليل MCL، نحن قادرون على زيادة احتمال مطابقة الاستعلام ومفتاح الحقيقة الأرضية، مما يساهم في دقة الاسترجاع المثلى. بالنظر إلى أن الحساب الدقيق ل MCL مستعصرا بسبب طلب عينات متباينة واسعة، فإننا نقترح مزيد من أخذ العينات عبر الأجهزة المختلفة (DCS)، والذي يزيد بشكل كبير من العينات المقنعة لتقريب دقيق من MCL. نقوم بإجراء دراسات تجريبية واسعة النطاق على أربعة مجموعات بيانات حقيقية، والتي تحقق نتائجها من فعالية MOPQ. الرمز متاح في https://github.com/microsoft /mopq.
تصنيف قانون الحوار (DA) هو مهمة تصنيف الكلمات فيما يتعلق بالوظيفة التي يخدمها في حوار.الأساليب الحالية لإعلام نموذج تصنيف DA دون دمج التغييرات بدوره بين مكبرات الصوت في جميع أنحاء الحوار، وبالتالي تعاملها لا تختلف عن النص المكتوب غير التفاعلي.في هذه الورقة، نقترح دمج التغييرات بدوره في المحادثات بين مكبرات الصوت عند النمذجة DAS.على وجه التحديد، نحن نتعلم المحادثة - تحويل المتكلم بدوره لتمثيل المتكلم يتحول في محادثة؛ثم يتم دمج Attringdings بدوره المتحدث المستفاد مع تضمين الكلام لمهام التنفيذ في تصنيف DA.مع هذه الآلية البسيطة والفعالة، فإن نموذجنا قادر على التقاط الدلالات من محتوى الحوار أثناء محاسبة المتكلم المختلفة في محادثة.التحقق من الصحة على ثلاث مجموعات بيانات عامة معيار يدل على الأداء الفائق لنموذجنا.
كانت جودة تلخيص الجماعة لديها تحسينات كبيرة منذ تقنيات محاكاة اللغة الأخيرة.ومع ذلك، هناك حاليا نقص في مجموعات البيانات للاحتياجات المتزايدة لتطبيقات تلخيص المحادثة.وبالتالي نحن جمعنا منتديات، مجموعة بيانات ملخصة محادثة متنوعة وعالية الجودة مع ملخصات مكتوبة بشرية.تتم جمع المحادثات في DiversionMum DataSet من مجموعة واسعة من منتديات الإنترنت.لجعل مجموعة البيانات قابلة للتوسيع بسهولة، نقوم أيضا بإصدار عملية إنشاء DataSet.تظهر تجاربنا أن النماذج المدربة على Forumsum لديها أفضل صفر - لقدرة على تحويل القليل من الطوابق إلى مجموعات البيانات الأخرى من بيانات ملخصات الدردشة الكبيرة الحالية Samsum.نظهر أيضا أن استخدام Corpus Corpustation للمحدثين يحسن ما قبل التدريب على تحسين جودة نموذج تلخيص الدردشة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا