ترغب بنشر مسار تعليمي؟ اضغط هنا

تجارب التحقق من المتكلم للبالغين والأطفال الذين يستخدمون مساحات التضمين المشترك

Speaker Verification Experiments for Adults and Children Using Shared Embedding Spaces

441   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

بالنسبة للأطفال، أدى النظام المدرب على جثة كبيرة من مكبرات الصوت الكبار أسوأ من النظام المدربين على جثة أصغر بكثير من خطاب الأطفال.هذا بسبب عدم تطابق الصوت بين التدريب واختبار البيانات.لالتقاط المزيد من التقلبات الصوتية، قامنا بتدريب نظام مشترك مع بيانات مختلطة من البالغين والأطفال.ينجذب النظام المشترك إلى أفضل أغاني للأطفال دون تدهور للبالغين.وبالتالي، فإن النظام الفردي المدرب مع البيانات المختلطة ينطبق على التحقق من السماعات لكل من البالغين والأطفال.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في السنوات الأخيرة، يمكن لنظام توليف الكلام إنشاء خطاب بجودة الكلام العالية. ومع ذلك، لا يزال نظام النص إلى كلام متعدد الكلام (TTS) يتطلب كمية كبيرة من بيانات الكلام لكل مكبر صوت مستهدف. في هذه الدراسة، نود إنشاء نظام TTS متعدد المتكلم من خلال دمج وح دات فرعية في نظام توليف الكلام المصنوع من الشبكة العصبية المصطنعة لتخفيف هذه المشكلة. تتمثل الوحدة الأولى في إضافة مكبر صوت إلى وحدة الترميز لتوليد الكلام في حين أن كمية كبيرة من بيانات الكلام من السماعة المستهدفة ليست ضرورية. بالنسبة لطريقة تضمين المتكلم، في دراستنا، يتم مقارنة طريقتان رئيسيتان لضمان المتكلم، وهي تضمين مكبر الصوت التضمين وإدماج تحويل الصوت، بتحديد ما هو مناسب لنظام TTS الشخصي الخاص بنا. ثانيا، استبدلنا الوحدة النمطية الإضافية التقليدية، التي تم تبنيها لتعزيز تسلسل طيف الإخراج، لزيادة تحسين جودة خطاب الكلام الذي تم إنشاؤه. هنا، يتم استخدام شبكة ما بعد المرشح. أخيرا، أظهرت نتائج التجربة أن تضمين المتكلم مفيد من خلال إضافةه إلى وحدة ترميز ونطق الكلام الناتج ينظر بالفعل إلى السماعة المستهدفة. أيضا، شبكة ما بعد التصفية ليست فقط تحسين جودة الكلام وتعزز أيضا تشابه المتكلم من كلام الكلام الناتج. يمكن لنظام TTS المصمم أن يولد كلام الكلام للمتكلم المستهدف في أقل من 2 ثانية. في المستقبل، نود مزيد من التحقيق في مكافحة قابلية التحكم في معدل التحدث أو حالة المشاعر المتصورة للكلمة التي تم إنشاؤها.
في طرازات اللغة عبر اللغات، تعيش تمثيلات للعديد من اللغات المختلفة في نفس المساحة. هنا، نحقق في العوامل اللغوية وغير اللغوية التي تؤثر على محاذاة على مستوى الجملة في نماذج اللغة المحددة مسبقا بين 101 لغة و 5،050 زوج لغة. باستخدام LASTE BERT-القائم عل ى BERT و LASER المستندة إلى BILSTM كنماذجنا، والكتاب المقدس كجورتنا، نحسب مقياسا يستند إلى المهمة لمحاذاة عبر اللغات في شكل أداء استرجاع BiteXT، بالإضافة إلى أربعة تدابير جوهرية لمساحة المتجهات المحاذاة والتزييف. ثم ندرس مجموعة من الميزات اللغوية واللغوية واللغوية والمتعلقة التدريبية كتنبؤ محتمل من مقاييس المحاذاة. تظهر نتائج تحليلاتنا أن اتفاقية ترتيب الكلمات والاتفاق في التعقيد المورفولوجي هي اثنتان من أقوى المتنبئ اللغوي للقلق. نلاحظ أيضا البيانات التدريبية في الأسرة كمؤشر أقوى من بيانات التدريب المحددة باللغة في جميع المجالات. نحن نتحقق من بعض النتائج اللغوية لدينا من خلال النظر في تأثير تجزئة مورفولوجية على محاذاة اللغة الإنجليزية - غير الأجنبية، بالإضافة إلى دراسة تأثير اتفاقية ترتيب الكلمات على ISomorphism ل 66 أزواج لغة الطلقة الصفرية من كائن مختلف. نحن نجعل البيانات والرمز تجاربنا متاحة للجمهور.
في هذه الورقة، نستخدم تعميم المجال لتحسين أداء نظام التحقق من مكبر الصوت عبر الأجهزة.استنادا إلى نظام التحقق من المتكلم التدريبي، نستخدم خوارزميات تعميم المجال لضبط المعلمات النموذجية.أولا، نستخدم DataSet Voxceleb2 لتدريب ECAPA-TDNN كنموذج أساسي.ثم ا ستخدم مجموعة بيانات ChT-TDSV وخوارزميات تعميم المجال التالية لضبطها: Dann، CDNN، Coral Coral.اختبارات نظامنا المقترح 10 سيناريوهات مختلفة في مجموعة بيانات NSYSU-TDSV، بما في ذلك جهاز واحد وأجهزة متعددة.أخيرا، في سيناريو الأجهزة المتعددة، انخفض أفضل معدل خطأ على قدم المساواة من 18.39 في الأساس إلى 8.84.حقق بنجاح تحديد الهوية عبر الجهاز على نظام التحقق من مكبر الصوت.
نقدم نظرة عامة على المهمة المشتركة السكري، التي قدمت في ورشة عمل المعالجة بالوثائق العلمية الثانية (SDP) في Naacl 2021. وفي هذه المهمة المشتركة، قدمت النظم مطالبة علمية وجزح من ملخصات البحث، وطلب تحديد المقالات التي تدعمهاأو دحض المطالبة وكذلك توفير جمل إثبات تبرير هذه الملصقات.11 قدمت فرق ما مجموعه 14 تقريرا إلى المتصدرين المهمة المشتركة، مما يؤدي إلى تحسين أكثر من +23 F1 على متري تقييم المهام الأساسية.بالإضافة إلى مسح النظم المشاركة، فإننا نقدم العديد من الأفكار في نهج النمذجة لدعم التقدم المحرز المستمر والبحث في المستقبل حول المهمة المهمة والصعبة للتحقق من الادعاء العلمي.
على الرغم من أن Word Adgeddings والمواضيع هي تمثيل تكميلي، إلا أن العديد من الأعمال السابقة استخدمت فقط Arestrained Word Areging في النمذجة الموضوعية (العصبية) لمعالجة Sparsity البيانات في نص قصير أو مجموعة صغيرة من المستندات. يعرض هذا العمل إطارا لل نمذجة النمذجة العصبية الرواية باستخدام مساحات تضمين متعددة الرؤية: (1) - Arbrained Topic-Embeddings، و (2) - Ardrained Word-Argeddings (غير حساس للسياق من القفازات والسياق الحساسة من نماذج بيرت) بالاشتراك من واحد أو العديد من المصادر لتحسين جودة الموضوع والتعامل بشكل أفضل مع Polysemy. عند القيام بذلك، نقوم أولا بإنشاء حمامات متعصفة من الموضوع المسبق (I.E.، TopicPool) و Adgeddings Word (I.E.، WordPool). بعد ذلك، حددنا واحدا أو أكثر من المجال (المجال) المصدر (SOB) ونقل المعرفة لتوجيه التعلم الهادف في المجال المستهدف Sparse. ضمن النمذجة الموضوعية العصبية، نحدد جودة المواضيع وتمثيلات المستند عبر التعميم (الحيرة)، إمكانية الترجمة الترجمة الترجمة الشفوية (تماسك الموضوع) واسترجاع المعلومات (IR) باستخدام مجموعات مستندات قصيرة ونص وطويلة وصغيرة من الأخبار والمجالات الطبية وبعد تقديم مساحات تضمين متعددة المشتريات متعددة المصدر، وقد أظهرنا نمذجة موضوع عصبي للحالة باستخدام 6 مصدر (الموارد العالية) و 5 أهداف (الموارد المنخفضة).

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا