ترغب بنشر مسار تعليمي؟ اضغط هنا

على النمذجة اللغة المنطوقة من الصوت من الصوت الخام

On Generative Spoken Language Modeling from Raw Audio

430   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مجرر أن نقدم نمذجة اللغة المنطوقة الإندنية، ومهمة تعلم الخصائص الصوتية واللغوية للغة من الصوت الخام (لا توجد نص، لا ملصقات)، ومجموعة من المقاييس لتقييم التمثيلات المستفادة تلقائيا على المستويات الصوتية واللغوية لكلا الترميزوالجيل.أنشأنا أنظمة أساسية تتكون من تشفير خطاب منفصل (وحدات النص الزائفة العائدين)، وهي نموذج لغة تابعة له (تدرب على النص الزائف)، وحديد فك الكلام (توليد موجة موجلة من النص الزائف) جميعها مدربة دون إشراف والتحقق من صحةالمقاييس المقترحة مع التقييم البشري.عبر 3 تشفير الكلام (CPC، WAV2VEC 2.0، HUBERT)، نجد أن عدد الوحدات المنفصلة (50 أو 100 أو أو 200) مسائل في طريقة تعتمد على المهام والتشييد، وأن بعض المجموعات نهج النظم القائمة على النصوص.1.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يعادل الافتقار إلى بيانات التقييم المتاحة للجمهور لغات الموارد المنخفضة التقدم المحرز في فهم اللغة المنطوقة (SLU).نظرا لأن المهام الرئيسية مثل تصنيف النوايا وملء الفتحات تتطلب بيانات تدريبية وفيرة، فمن المستحسن إعادة استخدام البيانات الحالية بلغات ال موارد عالية الوزن لتطوير نماذج لسيناريوهات الموارد المنخفضة.نقدم XSID، معيار جديد للفتحة عبر اللغات (x) والكشف عن النوايا في 13 لغة من 6 أسر لغوية، بما في ذلك لهجة الموارد المنخفضة للغاية.لمعالجة التحدي، نقترح نهجا تعليميا مشتركا، مع بيانات تدريب Slu الإنجليزية والمهام المساعدة غير الإنجليزية من النص الخام، بناء الجملة والترجمة للنقل.نقوم بدراسة اثنين من الإعدادات التي تختلف عن طريق تغطية النوع واللغة من المبيعات المدربة مسبقا.تظهر نتائجنا أن تعلم المشترك التعلم بالمهام الرئيسية ذات النمذجة اللغوية المعقدة فعالة للفتحات، في حين أن تحويل الترجمة الآلية يعمل بشكل أفضل لتصنيف النية.
يعد الصوت عنصراً أساسياً من عناصر الأوساط المتعددة، و نتيجة الحاجة إلى استخدامه في كثير من التطبيقات الحياتية كالبث التلفزيوني و برامج التواصل، لذا كانت الضرورة لوجود تقنيات لمعالجة إشارة الصوت من ضغط و تحسين و تقليل ضجيج. تكمن أهمية عملية ضغط البيا نات في تخفيض معدل البتات المستخدمة، و ذلك عن طريق ترميز المعلومات باستخدام عدد أقل من البتات من التمثيل الأصلي من أجل الإرسال و التخزين. حيث تقوم بتحديد المعلومات غير الضرورية و إزالتها، أي تعطي المعلومات التي ضُغطت ضغط الاستخدام ما نحتاجه كشكل أساسي و ليس أدق التفاصيل. يهدف البحث إلى دراسة كيفية معالجة الصوت و الإشارة الموسيقية، و هي عملية تضم بعض التطبيقات كالترميز و الضغط الرقمي بهدف النقل الفعال و التخزين على الهواتف النقالة و مشغلات الموسيقا المحمولة، و نمذجة واستنساخ صوت الآلات الموسيقية و قاعات الموسيقا و توافقيات الموسيقا الرقمية، و تحرير الموسيقا الرقمية، و تصنيف محتوى الموسيقا بالإضافة إلى أمور أخرى.
يعرض عدم وجود بيانات تدريبية تحديا كبيرا لتحجيم فهم اللغة المنطوقة لغات الموارد المنخفضة.على الرغم من أن نهج تكبير البيانات المختلفة قد اقترحت توليف البيانات التدريبية في لغات مستهدفة منخفضة الموارد، فإن مجموعات البيانات المعززة غالبا ما تكون صاخبة، وبالتالي تعيق أداء نماذج SLU.في هذه الورقة نركز على تخفيف الضوضاء في البيانات المعززة.نقوم بتطوير نهج تدريب Denosising.يتم تدريب نماذج متعددة مع البيانات التي تنتجها الطرق المعززة المختلفة.توفر هذه النماذج إشارات الإشراف لبعضها البعض.تظهر النتائج التجريبية أن أسلوبنا تتفوق على الحالة القائمة من الفن الموجودة بمقدار 3.05 و 4.24 نقطة مئوية عن مجموعات بيانات قياسية على التوالي.سيتم تقديم الرمز مفتوح المصادر على جيثب.
تعرض المحاضرة شرح عن علم البيانات وعلاقته بعلم الإحصاء والتعلم الآلي وحالتين دراسيتين عن دور عالم البيانات في تصميم حلول تعتمد على استخراج المعرفة من حجم كبير من البيانات المتوفرة, كما يتم عرض أهم المهام في المؤتمرات العلمية التي يمكن المشاركة بها لطلاب المعلوماتية المهتمين بهذا المجال
سنعرض في هذا البحث طريقة جديدة لتضمين العلامة المائية الرقمية في ملفات الصوت ذو النوع wav باستخدام تحويل الموجة المتقطع مع طريقة استخراجها. و سندرس جودة و متانة هذه الطريقة ضد الهجمات الأكثر شيوعاً كفلاتر تمرير الترددات المرتفعة و المنخفضة, إضاف ة ضجيج غوص الأبيض, إعادة التكميم, و مقاومة الضغط من النوع MP3 و ذلك من خلال قياس معدل طاقة الإشارة إلى الضجيج (PSNR) و معامل الارتباط (NC).

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا