ترغب بنشر مسار تعليمي؟ اضغط هنا

خوارزميات تعرّف على الكلام آلياً

Automatic Speech Recognition Algorithms

2225   3   11   5.0 ( 1 )
 تاريخ النشر 2017
  مجال البحث الهندسة المعلوماتية
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تهدف أنظمة تعرف الكلام أليا بشكل عام إلى كتابة ما يقال. تتالف أنظمة تعرف الكلام المستمر آليا في أحدث ما توصل إليه العلم في هذا المجال من أربع مكونات أساسية: معالجة الإشارة، النمذجة الصوتية, النمذجة اللغوية، ومحرك البحث. أما تعرف الكلمات المنفصلة فلا يحتوي على النمذجة اللغوية. التي تقوم بربط الكلمات لتشكيل جملة مفهومة.


ملخص البحث
تتناول الأطروحة دراسة أنظمة تعرف الكلام آلياً، وتهدف إلى تحويل الكلام المنطوق إلى نص مكتوب. تتكون أنظمة تعرف الكلام المستمر آلياً من أربع مكونات أساسية: معالجة الإشارة، النمذجة الصوتية، النمذجة اللغوية، ومحرك البحث. بينما لا تحتوي أنظمة تعرف الكلمات المنفصلة على النمذجة اللغوية. في جزء معالجة الإشارة، تم دراسة خوارزميتين لاستخراج السمات: معاملات الكيبيسترال بتردد ميل (MFCC) ومعاملات الكيبيسترال لمويجات جاماتون (GWCC)، وتم اختبار أدائهما باستخدام قاعدة بيانات TIDIGITS. تم استخدام نموذج ماركوف المخفي (HMM) لبناء المصنف، نظراً لمرونته وسهولة تعديله. تم اقتراح خوارزمية جديدة: معاملات الكيبيسترال بمعامل Q ثابت (CQCC) ومقارنة أدائها مع الخوارزميتين السابقتين. كما تم اختبار أداء الخوارزميات في بيئات ضجيج مختلفة (قطار، محطة، مطعم، ...).
قراءة نقدية
تعتبر هذه الدراسة شاملة ومفصلة في مجال تعرف الكلام آلياً، حيث تناولت دراسة خوارزميات متعددة واختبرت أدائها في بيئات مختلفة. ومع ذلك، يمكن توجيه بعض النقد البناء لهذه الدراسة. أولاً، قد يكون من الأفضل تضمين المزيد من قواعد البيانات المختلفة لاختبار الخوارزميات، مما يعزز من موثوقية النتائج. ثانياً، يمكن تحسين الدراسة من خلال تقديم تحليل أعمق لأسباب تفوق بعض الخوارزميات على الأخرى في بيئات ضجيج معينة. وأخيراً، يمكن أن تكون الدراسة أكثر شمولاً إذا تم تضمين تطبيقات عملية لأنظمة تعرف الكلام في الحياة اليومية، مثل استخدامها في الأجهزة الذكية أو السيارات.
أسئلة حول البحث
  1. ما هي المكونات الأساسية لأنظمة تعرف الكلام المستمر آلياً؟

    تتكون أنظمة تعرف الكلام المستمر آلياً من أربع مكونات أساسية: معالجة الإشارة، النمذجة الصوتية، النمذجة اللغوية، ومحرك البحث.

  2. ما هي الخوارزميات التي تم دراستها لاستخراج السمات في هذه الأطروحة؟

    تم دراسة خوارزميتين لاستخراج السمات: معاملات الكيبيسترال بتردد ميل (MFCC) ومعاملات الكيبيسترال لمويجات جاماتون (GWCC).

  3. ما هي الخوارزمية الجديدة التي تم اقتراحها في هذه الدراسة؟

    تم اقتراح خوارزمية جديدة هي معاملات الكيبيسترال بمعامل Q ثابت (CQCC).

  4. كيف تم اختبار أداء الخوارزميات في بيئات ضجيج مختلفة؟

    تم اختبار أداء الخوارزميات بإضافة أنواع مختلفة من الضجيج (قطار، محطة، مطعم، ... ) إلى الاختبارات.


المراجع المستخدمة
V. Kumar.S. Singh, S. Ahuja, and R. Chadha N. Trivedi, "Speech Recognition by Wavelet Analysis," International Journal of Computer Applications, vol. 15, no. 8, February 2011.
قيم البحث

اقرأ أيضاً

الهدف الأساسي من هذا البحث دعم تركيب الكلام من نصوص باللغة العربية بتنغيم طبيعي؛ و ذلك بالاعتماد على تحليل لغوي للنصوص المراد تركيبها و توليد قواعد تنغيم يجري استنتاجها من تحليل إشارات مسجلة لمختلف أنواع الجمل باللغة العربية. جرى، بالاستعانة بخبير ل غوي، حصر مختلف أنواع الجمل الخبرية و الإنشائية باللغة العربية، ثم إنشاء مدونة نصية تتضمن معظم أنواع هذه الجمل. تضمنت المدونة قرابة 2500 جملة. بعد ذلك جرى تسجيل هذه الجمل صوتياً بالتنغيم الطبيعي ثم بسرد مصطنع خال من التنغيم. في مرحلة لاحقة جرى تحليل إشارات كل نوع من أنواع الجمل بالتنغيم الطبيعي و بالنسخة الخالية من التنغيم لنمذجة أثر التنغيم الطبيعي في محددات الإشارة، و وضع قواعد لتوليد هذا التنغيم آلياً. نعرض في هذا البحث نتائج هذه الدراسة على جمل النفي الخبرية و تطبيق النتائج على كلام مركب باستخدام الأداة المفتوحة المصدر MBROLA. كما يمكن استخدام هذه النتائج مع أي مركب كلام عربي بموسطات، نأمل مستقبلاً، تنفيذ . توليد التنغيم على مركب كلام بأنصاف مقاطع يجري تطويره حالياً، في المعهد العالي للعلوم التطبيقية و التكنولوجيا.
تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة التي دخلت بقوة في مجالات الحياة المختلفة سواء الطبية أو الأمنية أو الصناعية. و بناءً عليه تم تطوير العديد من الأنظمة المعتمدة على طرق مختلفة في استخلاص السمات و التصنيف. في هذا البحث تم إنشاء ثلاث ة أنظمة للتعرف على الكلام، تختلف عن بعضها البعض بالطرق المستخدمة في مرحلة استخلاص السمات، حيث استخدم النظام الأول خوارزمية MFCC بينما استخدم النظام الثاني خوارزمية LPCC أما النظام الثالث فاستخدم خوارزمية PLP. تشترك هذه الأنظمة بطريقة التصنيف حيث استخدمت خوارزمية الـHMM كمصنف. في البداية تم دراسة و تقييم أداء عملية التعرف على الكلام للأنظمة الثلاثة السابقة المقترحة منفردةً. بعد ذلك تم تطبيق خوارزمية الجمع على كل زوج من الأنظمة المدروسة و ذلك لدراسة أثر خوارزمية الجمع في تحسين التعرف على الكلام. تم اعتماد نوعين من الأخطاء، الأخطاء التزامنية (simultaneous errors) و الأخطاء الاعتمادية ((dependent errors، كوحدة مقارنة لدراسة فعالية خوارزمية الجمع في تحسين أداء عملية التعرف على الكلام. يتبين من نتائج المقارنة أن أفضل نسبة تعرف على الكلام تم الحصول عليها في حالة جمع الخوارزميتان MFCC و PLP حيث تم الحصول على معدل تعرف 93.4%.
توفر المحاكاة الطبية بيئة تسيطر عليها لتدريب وتقييم المهارات السريرية. ومع ذلك، كمنصة تقييم، فإنه يتطلب وجود فاحص من ذوي الخبرة لتوفير ملاحظات الأداء، والتي تشمل عادة باستخدام قائمة مرجعية محددة المهام. هذا يجعل عملية التقييم غير فعالة ومكلفة. علاوة على ذلك، فإن طريقة التقييم هذه لا توفر الممارسين الطبيين الفرصة للتدريب المستقل. من الناحية المثالية، يجب إجراء عملية ملء قائمة التحقق بواسطة نظام موضوعي تدرك كامل، قادر على الاعتراف بمراقبة الأداء السريرية ومراقبتها. تحقيقا لهذه الغاية، قمنا بتطوير نظام مرجعي تلقائي بالكامل ونظام مرئي تلقائي بالكامل، قادر على تحديد تصرفات سكان التخدير بشكل موضوعي وتحقيق صحة في بيئة محاكاة. بناء على النتائج التي تم تحليلها، يكون نظامنا قادرا على الاعتراف بمعظم المهام في قائمة المراجعة: درجة F1 من 0.77 لجميع المهام، ونتيجة F1 من 0.79 للمهام اللفظية. تطوير نظام يستند إلى تحسين تجربة مجموعة واسعة من منصات المحاكاة. علاوة على ذلك، في المستقبل، يجوز تنفيذ هذا النهج في غرفة التشغيل وغرفة الطوارئ. هذا يمكن أن يسهل تطوير التقنيات المساعدة التلقائية لهذه المجالات.
بسبب شعبية خدمات مساعد الحوار الذكي، أصبح التعرف على عاطفي الكلام أكثر وأكثر أهمية.في التواصل بين البشر والآلات، يمكن للتعرف على العاطفة وتحليل العاطفة تعزيز التفاعل بين الآلات والبشر.تستخدم هذه الدراسة نموذج CNN + LSTM لتنفيذ معالجة العاطفة الكلام ( SER) والتنبؤ بها.من النتائج التجريبية، من المعروف أن استخدام نموذج CNN + LSTM يحقق أداء أفضل من استخدام نموذج NN التقليدي.
في حين أن التعرف التلقائي على الكلام قد أظهر عرضة لهجمات الخصومة، فإن الدفاعات ضد هذه الهجمات لا تزال متأخرة.يمكن كسر الدفاعات الحالية والساذجة جزئيا مع هجوم على التكيف.في مهام التصنيف، تبين أن نموذج التجانس العشوائي فعال في النماذج الدفاعية.ومع ذلك، من الصعب تطبيق هذه النموذج لمهام ASR، بسبب تعقيدها والطبيعة المتسلسلة لمخرجاتها.تتغلب الورق لدينا على بعض هذه التحديات من خلال الاستفادة من الأدوات الخاصة بالكلام مثل التحسين والتصويت Rover لتصميم نموذج ASR قوي للقلق.نحن نطبق الإصدارات التكيفية من الهجمات الحديثة، مثل هجوم ASR غير المحدد، ونموذجنا، وإظهار أن أقوى دفاعنا هو قوي لجميع الهجمات التي تستخدم الضوضاء غير المسموعة، ولا يمكن كسرها إلا مع تشويه كبير للغايةوبعد

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا