ترغب بنشر مسار تعليمي؟ اضغط هنا

نموذج شبكة عصبي NEVERTAL NEWRELTAL يستند إلى HernNet-50 للحصول على تحديد معرف اللغة من تسجيلات الكلام

A ResNet-50-Based Convolutional Neural Network Model for Language ID Identification from Speech Recordings

269   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة النموذج المدمج للمهمة المشتركة SIGTYP 2021 التي تهدف إلى تحديد 18 لغة مختلفة عن تسجيلات الكلام.يتم تحويل معاملات CEPSTRAL Mel-تردد Mel المستمدة من الملفات الصوتية إلى طفرات، ثم تغذيها بعد ذلك في بنية CNN المستند إلى 50.حصل النموذج النهائي على التحقق من الصحة واختبار بدلة 0.73 و 0.53، على التوالي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

توضح هذه المذكرة إرسال NTR-TSU المهمة المشتركة SIGTYP 2021 بشأن التنبؤ معرفات اللغة من الكلام.تعد تحديد اللغة المنطوقة (غطاء) خطوة مهمة في خط أنابيب نظام التعرف الآلي متعدد اللغات (ASR).بالنسبة للعديد من اللغات المنخفضة واللغات المهددة بالانقراض، قد تكون التسجيلات المفردة المفردة فقط متاحة، مطالبة بالحاجة إلى أنظمة معرف اللغة للمجال ومكبر الصوت.في هذه المذكرة، نوضح أن الشبكة العصبية التنافسية مع طبقة تجمع ذاتي اليقظة تظهر نتائج واعدة لمهمة تحديد اللغة.
تعد خلط التعليمات البرمجية (CM) ظاهرة ملحوظة في كثير من الأحيان تستخدم لغات متعددة في الكلام أو الجملة. لا توجد قيود نحوية صارمة لاحظت في خلط التعليمات البرمجية، وتتألف من أشكال الإملاء غير القياسية. إن التعقيد اللغوي الناتج عن العوامل المذكورة أعلاه جعل التحليل الحسابي للغة المختلطة من التعليمات البرمجية مهمة صعبة. تعد تحديد الهوية اللغوية (LI) وجزء الكلام (POS) الخطوات الأساسية التي تساعد في تحليل هيكل النص المختلط من التعليمات البرمجية. في كثير من الأحيان، تعتبر مهام وضع العلامات LI و POS في سيناريو خلط التعليمات البرمجية. نحن نعلم مشكلة التعامل مع تعدد اللغات والهيكل النحوي أثناء تحليل الجملة المختلطة من التعليمات البرمجية باعتبارها مهمة تعليمية مشتركة. في هذه الورقة، قمنا بالتعاون بشكل مشترك وتحسين اكتشاف اللغة وجزء من نماذج وضع علامات الكلام في السيناريو المختلط من التعليمات البرمجية. استخدمنا محول مع بنية الشبكة العصبية التنافعية. نحن ندرب طريقة التعلم المشترك من خلال الجمع بين طرامات نقاط البيع ونماذج LI على نص الوسائط الاجتماعية المختلطة من التعليمات البرمجية التي تم الحصول عليها من المهمة المشتركة أيقونة.
يعد تحليل الإطار الدلالي مهمة تحليل دلالية تعتمد على Framenet التي تلقت اهتماما كبيرا مؤخرا.تتضمن المهمة عادة ثلاث مجموعات فرعية بالتتابع: (1) التعرف المستهدف، (2) تصنيف الإطار و (3) وصف الدور الدليمي.ترتبط المهارات الفرعية الثلاثة ارتباطا وثيقا أثنا ء وجود دراسات سابقة طرازها بشكل فردي، مما يتجاهل اتصالاتهم المتدربين، وفي الوقت نفسه يحث مشكلة نشر الأخطاء.في هذا العمل، نقترح نموذج عصبي نهاية إلى نهائي لمعالجة المهمة بشكل مشترك.بشكل ملموس، استغلنا طريقة قائمة على الرسم البياني، فيما يتعلق بتحليل الإطار الدلالي كمشكلة بناء الرسم البياني.يتم التعامل مع جميع المسندات والأدوار كجزء رسم بياني، ويتم أخذ علاقاتهم كحواف رسم بياني.نتائج التجربة على مجموعة بيانات قياسية من الإطار الدلالي تظهر أن طريقتنا تنافسية للغاية، مما يؤدي إلى أداء أفضل من نماذج خطوط الأنابيب.
يمكن أن تخفف المعلومات الدقيقة من حدود الكلمات مشكلة الغموض المعجمي لتحسين أداء مهام معالجة اللغة الطبيعية (NLP). وبالتالي، فإن تجزئة الكلمات الصينية (CWS) مهمة أساسية في NLP. نظرا لتطوير نماذج اللغة المدربة مسبقا (PLM)، فإن المعرفة المدربة مسبقا يمك ن أن تساعد الأساليب العصبية في حل المشكلات الرئيسية ل CWS في إجراء كبير. حققت الطرق الحالية بالفعل أداء عال في العديد من المعايير (على سبيل المثال، bakeoff-2005). ومع ذلك، فإن الدراسات البارزة الحديثة محدودة من قبل كوربوس المشروح على نطاق صغير. لزيادة تحسين أداء أساليب CWS بناء على ضبط PLMS، نقترح إطار عمل عصبي رواية، LBGCN، الذي يشتمل على شبكة اتصالية قائمة بذاتها في الترميز في ترميز المحولات. النتائج التجريبية على خمسة معايير وأربعة مجموعات بيانات عبر المجال تظهر أن شبكة اتصال الرسوم البيانية المستندة إلى المعجم تستغرق بنجاح معلومات الكلمات المرشحة وتساعد على تحسين الأداء على المعايير (BakeOFF-2005 و CTB6) ومجموعات البيانات عبر المجال (Sighan- 2010). توضح المزيد من التجارب والتحليلات أن إطار عملنا المقترح نماذج المعجم بفعالية لتعزيز قدرة الأطر العصبية الأساسية وتعزز المتانة في سيناريو المجال العابر.
بسبب شعبية خدمات مساعد الحوار الذكي، أصبح التعرف على عاطفي الكلام أكثر وأكثر أهمية.في التواصل بين البشر والآلات، يمكن للتعرف على العاطفة وتحليل العاطفة تعزيز التفاعل بين الآلات والبشر.تستخدم هذه الدراسة نموذج CNN + LSTM لتنفيذ معالجة العاطفة الكلام ( SER) والتنبؤ بها.من النتائج التجريبية، من المعروف أن استخدام نموذج CNN + LSTM يحقق أداء أفضل من استخدام نموذج NN التقليدي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا