تهدف أنظمة تعرف الكلام أليا بشكل عام إلى كتابة ما يقال. تتالف أنظمة تعرف الكلام المستمر آليا في أحدث ما توصل إليه العلم في هذا المجال من أربع مكونات أساسية: معالجة الإشارة، النمذجة الصوتية, النمذجة اللغوية، ومحرك البحث. أما تعرف الكلمات المنفصلة فلا يحتوي على النمذجة اللغوية. التي تقوم بربط الكلمات لتشكيل جملة مفهومة.
In general, the aim of an automatic speech recognition system is to write down what is said. State of the art continuous speech recognition systems consist of four basic modules: the signal processing, the acoustic modeling, the language modeling and the search engine. While isolated word recognition systems do not contain language modeling, which is responsible for connecting words together to form understandable sentences.
Artificial intelligence review:
Research summary
تتناول الأطروحة دراسة أنظمة تعرف الكلام آلياً، وتهدف إلى تحويل الكلام المنطوق إلى نص مكتوب. تتكون أنظمة تعرف الكلام المستمر آلياً من أربع مكونات أساسية: معالجة الإشارة، النمذجة الصوتية، النمذجة اللغوية، ومحرك البحث. بينما لا تحتوي أنظمة تعرف الكلمات المنفصلة على النمذجة اللغوية. في جزء معالجة الإشارة، تم دراسة خوارزميتين لاستخراج السمات: معاملات الكيبيسترال بتردد ميل (MFCC) ومعاملات الكيبيسترال لمويجات جاماتون (GWCC)، وتم اختبار أدائهما باستخدام قاعدة بيانات TIDIGITS. تم استخدام نموذج ماركوف المخفي (HMM) لبناء المصنف، نظراً لمرونته وسهولة تعديله. تم اقتراح خوارزمية جديدة: معاملات الكيبيسترال بمعامل Q ثابت (CQCC) ومقارنة أدائها مع الخوارزميتين السابقتين. كما تم اختبار أداء الخوارزميات في بيئات ضجيج مختلفة (قطار، محطة، مطعم، ...).
Critical review
تعتبر هذه الدراسة شاملة ومفصلة في مجال تعرف الكلام آلياً، حيث تناولت دراسة خوارزميات متعددة واختبرت أدائها في بيئات مختلفة. ومع ذلك، يمكن توجيه بعض النقد البناء لهذه الدراسة. أولاً، قد يكون من الأفضل تضمين المزيد من قواعد البيانات المختلفة لاختبار الخوارزميات، مما يعزز من موثوقية النتائج. ثانياً، يمكن تحسين الدراسة من خلال تقديم تحليل أعمق لأسباب تفوق بعض الخوارزميات على الأخرى في بيئات ضجيج معينة. وأخيراً، يمكن أن تكون الدراسة أكثر شمولاً إذا تم تضمين تطبيقات عملية لأنظمة تعرف الكلام في الحياة اليومية، مثل استخدامها في الأجهزة الذكية أو السيارات.
Questions related to the research
-
ما هي المكونات الأساسية لأنظمة تعرف الكلام المستمر آلياً؟
تتكون أنظمة تعرف الكلام المستمر آلياً من أربع مكونات أساسية: معالجة الإشارة، النمذجة الصوتية، النمذجة اللغوية، ومحرك البحث.
-
ما هي الخوارزميات التي تم دراستها لاستخراج السمات في هذه الأطروحة؟
تم دراسة خوارزميتين لاستخراج السمات: معاملات الكيبيسترال بتردد ميل (MFCC) ومعاملات الكيبيسترال لمويجات جاماتون (GWCC).
-
ما هي الخوارزمية الجديدة التي تم اقتراحها في هذه الدراسة؟
تم اقتراح خوارزمية جديدة هي معاملات الكيبيسترال بمعامل Q ثابت (CQCC).
-
كيف تم اختبار أداء الخوارزميات في بيئات ضجيج مختلفة؟
تم اختبار أداء الخوارزميات بإضافة أنواع مختلفة من الضجيج (قطار، محطة، مطعم، ... ) إلى الاختبارات.
References used
V. Kumar.S. Singh, S. Ahuja, and R. Chadha N. Trivedi, "Speech Recognition by Wavelet Analysis," International Journal of Computer Applications, vol. 15, no. 8, February 2011.
The main purpose of the present research is to support Arabic Text- to - Speech synthesizers, with
natural prosody, based on linguistic analysis of texts to synthesize, and automatic prosody generation,
using rules which are deduced from recorded s
The speech recognition is one of the most modern technologies, which entered force
in various fields of life, whether medical or security or industrial techniques. Accordingly,
many related systems were developed, which differ from each otherin fea
Medical simulators provide a controlled environment for training and assessing clinical skills. However, as an assessment platform, it requires the presence of an experienced examiner to provide performance feedback, commonly preformed using a task s
Due to the popularity of intelligent dialogue assistant services, speech emotion recognition has become more and more important. In the communication between humans and machines, emotion recognition and emotion analysis can enhance the interaction be
While Automatic Speech Recognition has been shown to be vulnerable to adversarial attacks, defenses against these attacks are still lagging. Existing, naive defenses can be partially broken with an adaptive attack. In classification tasks, the Random