ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين أنظمة التعرف على الكلام عن طريق جمع خوارزميتين لاستخلاص السمات

Improvement of Speech Recognition by Merging Two Features Extraction Algorithms

2090   3   102   0 ( 0 )
 تاريخ النشر 2017
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة التي دخلت بقوة في مجالات الحياة المختلفة سواء الطبية أو الأمنية أو الصناعية. و بناءً عليه تم تطوير العديد من الأنظمة المعتمدة على طرق مختلفة في استخلاص السمات و التصنيف. في هذا البحث تم إنشاء ثلاثة أنظمة للتعرف على الكلام، تختلف عن بعضها البعض بالطرق المستخدمة في مرحلة استخلاص السمات، حيث استخدم النظام الأول خوارزمية MFCC بينما استخدم النظام الثاني خوارزمية LPCC أما النظام الثالث فاستخدم خوارزمية PLP. تشترك هذه الأنظمة بطريقة التصنيف حيث استخدمت خوارزمية الـHMM كمصنف. في البداية تم دراسة و تقييم أداء عملية التعرف على الكلام للأنظمة الثلاثة السابقة المقترحة منفردةً. بعد ذلك تم تطبيق خوارزمية الجمع على كل زوج من الأنظمة المدروسة و ذلك لدراسة أثر خوارزمية الجمع في تحسين التعرف على الكلام. تم اعتماد نوعين من الأخطاء، الأخطاء التزامنية (simultaneous errors) و الأخطاء الاعتمادية ((dependent errors، كوحدة مقارنة لدراسة فعالية خوارزمية الجمع في تحسين أداء عملية التعرف على الكلام. يتبين من نتائج المقارنة أن أفضل نسبة تعرف على الكلام تم الحصول عليها في حالة جمع الخوارزميتان MFCC و PLP حيث تم الحصول على معدل تعرف 93.4%.


ملخص البحث
تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة التي دخلت بقوة في مجالات الحياة المختلفة سواء الطبية أو الأمنية أو الصناعية. في هذا البحث، تم إنشاء ثلاثة أنظمة للتعرف على الكلام تختلف في طرق استخلاص السمات: النظام الأول استخدم خوارزمية MFCC، النظام الثاني استخدم خوارزمية LPCC، والنظام الثالث استخدم خوارزمية PLP. جميع هذه الأنظمة استخدمت خوارزمية HMM كمصنف. تم تقييم أداء كل نظام على حدة، ثم تم تطبيق خوارزمية الجمع على كل زوج من الأنظمة لدراسة تأثير الجمع في تحسين التعرف على الكلام. أظهرت النتائج أن أفضل نسبة تعرف على الكلام تم الحصول عليها كانت عند جمع الخوارزميتين MFCC وPLP، حيث تم الحصول على معدل تعرف 93.4%.
قراءة نقدية
دراسة نقدية: يعتبر هذا البحث خطوة مهمة في تحسين أنظمة التعرف على الكلام من خلال دمج خوارزميات استخلاص السمات المختلفة. ومع ذلك، هناك بعض النقاط التي يمكن تحسينها. أولاً، لم يتم توضيح كيفية اختيار عينات البيانات المستخدمة في التدريب والاختبار بشكل كافٍ، مما قد يؤثر على تعميم النتائج. ثانياً، كان من الممكن استخدام مجموعة أوسع من الخوارزميات واختبارها للحصول على نتائج أكثر شمولية. وأخيراً، لم يتم مناقشة تأثير الضوضاء البيئية على أداء الأنظمة، وهو عامل مهم في التطبيقات العملية.
أسئلة حول البحث
  1. ما هي الخوارزميات الثلاث المستخدمة لاستخلاص السمات في هذا البحث؟

    الخوارزميات الثلاث المستخدمة هي MFCC وLPCC وPLP.

  2. ما هو المصنف المستخدم في جميع الأنظمة الثلاثة؟

    المصنف المستخدم هو خوارزمية نماذج ماركوف المخفية (HMM).

  3. ما هي أفضل نسبة تعرف على الكلام تم الحصول عليها في هذا البحث؟

    أفضل نسبة تعرف على الكلام تم الحصول عليها هي 93.4% عند جمع الخوارزميتين MFCC وPLP.

  4. ما هي الأنواع المختلفة من الأخطاء التي تم اعتمادها في تقييم الأنظمة؟

    تم اعتماد نوعين من الأخطاء: الأخطاء التزامنية (simultaneous errors) والأخطاء الاعتمادية (dependent errors).


المراجع المستخدمة
Marius Zbancioc, MihaelaCostin :using neural networks and LPCC to improve speech recognition, International IEEE SCS Conference, Proceedings, Vol. 1, 2003 EX 720, pp. 445 – 448
Levy, C., Linares, G., Nocera, P., Bonastre, J.-F. : Reducing computational and memory cost for cellular phone embedded speech recognition system, Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP '04). IEEE International Conference on (Volume:5 ) , pages(309-12) vol.5 , Print ISBN:9-8484-7803-0
Dimitriadis, Maragos, P. Potamianos:Robust AM-FM Features for Speech Recognition, IEEE signal processing letters, VOL. 12, NO. 9, 2005
قيم البحث

اقرأ أيضاً

في حين أن التعرف على الكيان المسمى (NER) من الكلام كان موجودا طالما أن NER من نص مكتوب لديه، فإن دقة NER من الكلام كانت أيضا أقل بكثير من NER من النص. يبرز ارتفاع شعبية أنظمة الحوار المنطوقة مثل Siri أو Alexa الحاجة إلى أكثر دقة من الكلام من الكلام ل أن NER هو مكون أساسي لفهم ما قاله المستخدمون في الحوار. تتلقى أنظمة الحوار المنطوقة المنطوقة إدخال المستخدم في شكل نصوص التعرف على الكلام التلقائي (ASR)، وببساطة تطبيق نموذج NER المدربين على النص المكتوب إلى نصوص ASR غالبا ما يؤدي إلى دقة منخفضة لأنها مقارنة بالنص المكتبكي، تفتقر نصوص ASR إلى إشارات مهمة مثل علامات الترقيم والرسملة. علاوة على ذلك، فإن الأخطاء في نصوص العصر تجعل أيضا NER من الكلام الصعب. نقترح نماذجين تستغلوا أدلة سياق الحوار ونمط الكلام لاستخراج الكيانات المسماة بدقة أكثر دقة من مربعات الحوار المفتوحة في أنظمة الحوار المنطوقة. تظهر نتائجنا الاستفادة من سياق حوار النمذجة وأنماط الكلام في إعدادتين: إعداد قياسي مع قسم عشوائي من البيانات وأكثر واقعية من الإعداد ولكن أيضا أكثر صعوبة حيث تكون العديد من الكيانات المسماة التي تمت مواجهتها أثناء النشر غير مرئي أثناء التدريب.
تهدف أنظمة تعرف الكلام أليا بشكل عام إلى كتابة ما يقال. تتالف أنظمة تعرف الكلام المستمر آليا في أحدث ما توصل إليه العلم في هذا المجال من أربع مكونات أساسية: معالجة الإشارة، النمذجة الصوتية, النمذجة اللغوية، ومحرك البحث. أما تعرف الكلمات المنفصلة فلا يحتوي على النمذجة اللغوية. التي تقوم بربط الكلمات لتشكيل جملة مفهومة.
تقدم الدراسة طريقة جديدة لاستخلاص سمات صورة راحة اليد و تحديد السمات الأكثر فعالية منها، إضافة إلى دراسة تأثير عملية الاختيار على تسريع عمل مراحل النظام و رفع أدائه.
بسبب شعبية خدمات مساعد الحوار الذكي، أصبح التعرف على عاطفي الكلام أكثر وأكثر أهمية.في التواصل بين البشر والآلات، يمكن للتعرف على العاطفة وتحليل العاطفة تعزيز التفاعل بين الآلات والبشر.تستخدم هذه الدراسة نموذج CNN + LSTM لتنفيذ معالجة العاطفة الكلام ( SER) والتنبؤ بها.من النتائج التجريبية، من المعروف أن استخدام نموذج CNN + LSTM يحقق أداء أفضل من استخدام نموذج NN التقليدي.
اكتشاف الكلام الكراهية هو مجال أبحاث بنشاط مع مجموعة متنوعة من الأساليب المقترحة مؤخرا التي سمحت بدفع النتائج الحديثة.واحدة من تحديات هذه الأساليب الآلية - وهي نماذج التعلم العميق الحديثة - خطر الإيجابيات الخاطئة (أي، اتهامات كاذبة)، والتي قد تؤدي إل ى حجب أو إزالة محتوى وسائل التواصل الاجتماعي غير الضارة في التطبيقات مع تدخل المشرف القليلوبعدنحن نقيم نماذج التعلم العميق في حد سواء تحت ظروف الكشف عن الكلام في المجال والمجال عبر المجال، وإدخال نهج SVM يسمح بتحسين نتائج أحدث من الفن عند دمجها مع نماذج التعلم العميق من خلال غالبية بسيطةفرقة التصويت.يرجع التحسن أساسا إلى انخفاض معدل إيجابي كاذب.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا