بحث متقدم مدعوم من الذكاء الصنعي

مساحة جديدة

اشترك بالحزمة الذهبية واحصل على وصول غير محدود شمرا أكاديميا

تسجيل مستخدم جديد

على النمذجة اللغة المنطوقة من الصوت من الصوت الخام

On Generative Spoken Language Modeling from Raw Audio

833 0 0 0.0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جمعية اللغويات الحاسوبية ACL مقالة

تاريخ النشر 2021

مجال البحث الذكاء الاصناعي

والبحث باللغة English

تمت اﻹضافة من قبل Shamra Editor

spoken language modeling generative spoken language raw audio نمذجة اللغة المنطوقة اللغة المنطوقة التوليدية الصوت الخام صناعة حمض الفوسفور

قم بزيارة صفحتنا على فيسبوك

‎Shamra Academia - شمرا أكاديميا‎

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

مجرر أن نقدم نمذجة اللغة المنطوقة الإندنية، ومهمة تعلم الخصائص الصوتية واللغوية للغة من الصوت الخام (لا توجد نص، لا ملصقات)، ومجموعة من المقاييس لتقييم التمثيلات المستفادة تلقائيا على المستويات الصوتية واللغوية لكلا الترميزوالجيل.أنشأنا أنظمة أساسية تتكون من تشفير خطاب منفصل (وحدات النص الزائفة العائدين)، وهي نموذج لغة تابعة له (تدرب على النص الزائف)، وحديد فك الكلام (توليد موجة موجلة من النص الزائف) جميعها مدربة دون إشراف والتحقق من صحةالمقاييس المقترحة مع التقييم البشري.عبر 3 تشفير الكلام (CPC، WAV2VEC 2.0، HUBERT)، نجد أن عدد الوحدات المنفصلة (50 أو 100 أو أو 200) مسائل في طريقة تعتمد على المهام والتشييد، وأن بعض المجموعات نهج النظم القائمة على النصوص.1.

المراجع المستخدمة

https://aclanthology.org/

قيم البحث

786 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

يعادل الافتقار إلى بيانات التقييم المتاحة للجمهور لغات الموارد المنخفضة التقدم المحرز في فهم اللغة المنطوقة (SLU).نظرا لأن المهام الرئيسية مثل تصنيف النوايا وملء الفتحات تتطلب بيانات تدريبية وفيرة، فمن المستحسن إعادة استخدام البيانات الحالية بلغات ال موارد عالية الوزن لتطوير نماذج لسيناريوهات الموارد المنخفضة.نقدم XSID، معيار جديد للفتحة عبر اللغات (x) والكشف عن النوايا في 13 لغة من 6 أسر لغوية، بما في ذلك لهجة الموارد المنخفضة للغاية.لمعالجة التحدي، نقترح نهجا تعليميا مشتركا، مع بيانات تدريب Slu الإنجليزية والمهام المساعدة غير الإنجليزية من النص الخام، بناء الجملة والترجمة للنقل.نقوم بدراسة اثنين من الإعدادات التي تختلف عن طريق تغطية النوع واللغة من المبيعات المدربة مسبقا.تظهر نتائجنا أن تعلم المشترك التعلم بالمهام الرئيسية ذات النمذجة اللغوية المعقدة فعالة للفتحات، في حين أن تحويل الترجمة الآلية يعمل بشكل أفضل لتصنيف النية.

improve zero-shot spoken tasks improve zero-shot تحسين صفر النار المنطوقة المهام تحسين صفر النار صناعة حمض الفوسفور

دراسة فعالية و جودة الصوت في خوارزميات ضغط الصوت

2690 - جامعة تشرين 2016 ورقة بحثية

يعد الصوت عنصراً أساسياً من عناصر الأوساط المتعددة، و نتيجة الحاجة إلى استخدامه في كثير من التطبيقات الحياتية كالبث التلفزيوني و برامج التواصل، لذا كانت الضرورة لوجود تقنيات لمعالجة إشارة الصوت من ضغط و تحسين و تقليل ضجيج. تكمن أهمية عملية ضغط البيا نات في تخفيض معدل البتات المستخدمة، و ذلك عن طريق ترميز المعلومات باستخدام عدد أقل من البتات من التمثيل الأصلي من أجل الإرسال و التخزين. حيث تقوم بتحديد المعلومات غير الضرورية و إزالتها، أي تعطي المعلومات التي ضُغطت ضغط الاستخدام ما نحتاجه كشكل أساسي و ليس أدق التفاصيل. يهدف البحث إلى دراسة كيفية معالجة الصوت و الإشارة الموسيقية، و هي عملية تضم بعض التطبيقات كالترميز و الضغط الرقمي بهدف النقل الفعال و التخزين على الهواتف النقالة و مشغلات الموسيقا المحمولة، و نمذجة واستنساخ صوت الآلات الموسيقية و قاعات الموسيقا و توافقيات الموسيقا الرقمية، و تحرير الموسيقا الرقمية، و تصنيف محتوى الموسيقا بالإضافة إلى أمور أخرى.

تحويل التجب المتقطع التعديل النبضي المرمز معدل أخذ العينات خوارزمية MPEG (Pulse code modulation (PCM Sample rate MPEG (Moving Pictures Experts Groups) Algorithm (Discrete Cosine Transform (DCT المزيد..

التعلم من مجموعات بيانات معدنية صاخبة متعددة من أجل فهم اللغة المنطوقة عبر اللغات أفضل

1166 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

يعرض عدم وجود بيانات تدريبية تحديا كبيرا لتحجيم فهم اللغة المنطوقة لغات الموارد المنخفضة.على الرغم من أن نهج تكبير البيانات المختلفة قد اقترحت توليف البيانات التدريبية في لغات مستهدفة منخفضة الموارد، فإن مجموعات البيانات المعززة غالبا ما تكون صاخبة، وبالتالي تعيق أداء نماذج SLU.في هذه الورقة نركز على تخفيف الضوضاء في البيانات المعززة.نقوم بتطوير نهج تدريب Denosising.يتم تدريب نماذج متعددة مع البيانات التي تنتجها الطرق المعززة المختلفة.توفر هذه النماذج إشارات الإشراف لبعضها البعض.تظهر النتائج التجريبية أن أسلوبنا تتفوق على الحالة القائمة من الفن الموجودة بمقدار 3.05 و 4.24 نقطة مئوية عن مجموعات بيانات قياسية على التوالي.سيتم تقديم الرمز مفتوح المصادر على جيثب.

الانتباه المتكرر cross-lingual spoken language اللغة المنطوقة عبر اللغات صناعة حمض الفوسفور

علم البيانات واستخراج المعرفة من البيانات الخام

2431 - شمرا 2019 محاضرة

تعرض المحاضرة شرح عن علم البيانات وعلاقته بعلم الإحصاء والتعلم الآلي وحالتين دراسيتين عن دور عالم البيانات في تصميم حلول تعتمد على استخراج المعرفة من حجم كبير من البيانات المتوفرة, كما يتم عرض أهم المهام في المؤتمرات العلمية التي يمكن المشاركة بها لطلاب المعلوماتية المهتمين بهذا المجال

Machine learning Artificial intelligence Statistics Data science

استخدام تحويل الموجة المتقطع لتضمين الطعامة المائية الرقمية في الصوت

1708 - جامعة البعث 2016 ورقة بحثية

سنعرض في هذا البحث طريقة جديدة لتضمين العلامة المائية الرقمية في ملفات الصوت ذو النوع wav باستخدام تحويل الموجة المتقطع مع طريقة استخراجها. و سندرس جودة و متانة هذه الطريقة ضد الهجمات الأكثر شيوعاً كفلاتر تمرير الترددات المرتفعة و المنخفضة, إضاف ة ضجيج غوص الأبيض, إعادة التكميم, و مقاومة الضغط من النوع MP3 و ذلك من خلال قياس معدل طاقة الإشارة إلى الضجيج (PSNR) و معامل الارتباط (NC).

العلامة المائية الرقمية الصوت الرقمي تحويل الموجة المتقطع Digital Watermarking Digital audio DWT

الأسئلة المقترحة

شرح تقنية التعرف على الصوت Voice Recognition

2110 - 0 - - تم طرحه بمساحة (الذكاء الاصناعي)

التعرف على الصوت التعرف على الكلام التعرف على الكلام التلقائي

سجل دخول لتتمكن من نشر تعليقات

التعليقات

جاري جلب التعليقات

سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

جامعة الوادي الدولية الخاصة

تفاصيل إضافية المزيد من الجامعات

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

على النمذجة اللغة المنطوقة من الصوت من الصوت الخام

On Generative Spoken Language Modeling from Raw Audio

اسأل ChatGPT حول البحث

اقرأ أيضاً

الأسئلة المقترحة