يشتمل التعرف على الصوت قسمين أساسيين و هما التعرف على الكلام و التعرف على المتكلم، حيث تعد عمليات التعرف هذه من أهم التقنيات الحديثة و قد تم تطوير العديد من الأنظمة التي تختلف بالطرق المستخدمة في استخراج السمات و طرق التصنيف لتدعم أنظمة تعرف من هذا النوع.
اشتملت الدراسة في هذا البحث على القسمين السابقين، حيث تم تصميم نظام تعرف على المتكلم و أوامره الصوتية و استخدام عدة خوارزميات متكاملة لإنجاز البحث. قمنا بإجراء دراسة تحليلية لخوارزمية Mel Frequency Cepstral Coefficients ((MFCC المستخدمة في استخراج السمات، و تمت دراسة بارامترين خاصين بهذه الخوارزمية هما عدد المرشحات في بنك المرشحات و عدد السمات المأخوذة من كل إطار و علاقة هذين البارامترين ببعضهما و مدى تأثير قيمتهما على نسب التعرف. و تم استخدام الشبكات العصبية ذات التغذية الأمامية و الانتشار الخلفي للخطأ Forwarding back propagation Neural Networks (FFBPNN)Feed كمصنف و حللنا أداء الشبكة للوصول إلى أفضل خصائص و مكونات محققة عملية التعرف. كما تمت دراسة خوارزمية Endpoint المستخدمة لإزالة فترات الصمت و تأثيرها في نسب التعرف على الصوت.
Voice recognition includes two basic parts: speech and speaker recognition. These
recognition processes consider as the most important processes of modern technologies,
many systems has been developed that differ in the methods used to extract features and
classification ways to support recognition systems of this type.
The study was conducted in this research on the previous subject, where the system
is designed to recognize the speaker and his voice orders and focus on several
complementary algorithms to carry out the research. we conducted an analytical study on
MFCC algorithm used in the extraction of features, and it has been studying two
parameters the number of filters in the filters bank and the number of features that taken
from each frame and the impact of these two parameters in the recognition rate and the
relationship of these two parameters on each other. It was the use of feed forwarding back
propagation neural networks performance analysis as characteristics and we analyze the
performance of the network to gain access to the best features and components to the
process of achieving recognition. And it has been studying Endpoint algorithm that used
to remove periods of silence and its impact on voice recognition rates.
Artificial intelligence review:
Research summary
تتناول هذه الدراسة تحليل خوارزميتي MFCC وEndpoint ومدى تأثيرهما على نسب التعرف على الصوت. تتضمن عملية التعرف على الصوت قسمين رئيسيين: التعرف على الكلام والتعرف على المتكلم. تم تصميم نظام للتعرف على المتكلم وأوامره الصوتية باستخدام عدة خوارزميات مكملة. تم إجراء دراسة تحليلية لخوارزمية MFCC التي تستخدم لاستخراج السمات الصوتية، مع التركيز على تأثير عدد المرشحات في بنك المرشحات وعدد السمات المأخوذة من كل إطار على نسب التعرف. كما تم استخدام الشبكات العصبية ذات التغذية الأمامية والانتشار الخلفي للخطأ (FFBPNN) كمصنف، وتم تحليل أداء الشبكة للوصول إلى أفضل خصائص ومكونات لتحقيق عملية التعرف. بالإضافة إلى ذلك، تمت دراسة خوارزمية Endpoint المستخدمة لإزالة فترات الصمت وتأثيرها على نسب التعرف على الصوت. توصلت الدراسة إلى أن زيادة عدد المرشحات في بنك المرشحات وعدد السمات المأخوذة من كل إطار يؤدي إلى تحسين نسب التعرف حتى حد معين، وبعد ذلك تثبت النسب. تم الحصول على أعلى نسبة تعرف قدرها 90.74% عند التعرف على الأوامر الصوتية و87.50% عند التعرف على المتكلم. توصي الدراسة باستخدام بنك مرشحات مكون من عدد مرشحات بين 24-35 واختيار عدد سمات أصغر من عدد المرشحات بقليل لتحقيق أفضل نتائج في التعرف على الصوت.
Critical review
دراسة نقدية: تعتبر هذه الدراسة خطوة مهمة في مجال التعرف على الصوت، حيث تقدم تحليلاً دقيقاً لخوارزميتي MFCC وEndpoint وتأثيرهما على نسب التعرف. ومع ذلك، يمكن تحسين الدراسة من خلال توسيع قاعدة البيانات المستخدمة لتشمل مجموعة أكبر من المتكلمين والأوامر الصوتية، مما يزيد من دقة النتائج وموثوقيتها. كما يمكن دراسة تأثير خوارزميات أخرى لإزالة فترات الصمت ومقارنتها بخوارزمية Endpoint المستخدمة في هذه الدراسة. بالإضافة إلى ذلك، يمكن تحسين الدراسة من خلال تحليل تأثير الضوضاء البيئية على نسب التعرف وتقديم حلول للتعامل معها. بشكل عام، تعتبر الدراسة قيمة وتقدم نتائج مفيدة، ولكن يمكن تحسينها من خلال توسيع نطاق البحث وتحليل المزيد من العوامل المؤثرة على نسب التعرف.
Questions related to the research
-
ما هي الخوارزميات التي تم تحليلها في الدراسة؟
تم تحليل خوارزميتي MFCC وEndpoint في الدراسة.
-
ما هي أعلى نسبة تعرف تم تحقيقها في الدراسة؟
تم تحقيق أعلى نسبة تعرف قدرها 90.74% عند التعرف على الأوامر الصوتية و87.50% عند التعرف على المتكلم.
-
ما هو تأثير زيادة عدد المرشحات في بنك المرشحات على نسب التعرف؟
زيادة عدد المرشحات في بنك المرشحات تؤدي إلى تحسين نسب التعرف حتى حد معين، وبعد ذلك تثبت النسب.
-
ما هي التوصيات التي قدمتها الدراسة لتحسين نسب التعرف؟
توصي الدراسة باستخدام بنك مرشحات مكون من عدد مرشحات بين 24-35 واختيار عدد سمات أصغر من عدد المرشحات بقليل لتحقيق أفضل نتائج في التعرف على الصوت.
References used
CARROLL, T.;COLANGELO, R.;STROTT, T."Bird Call Identifier –Identifying Songs of Bird Species through Digital Signal Processing Techniques". 2010,118
Xue, X."Joint Speech and Speaker Recognition Using Neural Networks".NOVIA-University of applied science. 2013,60
(CHOUDHARY, A.;KSHIRSAGAR,R."Process Speech Recognition System using Artificial Intelligence Technique".(IJSCE) ,ISSN: 2231-2307, Volume-2, Issue-5, 2012,PP(239-242
The sound is an essential component of multimedia, and due to the needto be used in
many life applications such as television broadcasting andcommunication programs, so it
was necessary for the existence of audio signal processing techniquessuch as
Due to the large increase in the use of data communication and information exchange
services of different types in different environments, the standard and the programming
had to be a language of characterization is ideal for scalability and develo
In this paper, we assess the Voice Over Internet Protocol
performance by comparing the performance of two protocols
used in VOIP such as SIP and H.323. Moreover, we evaluate
the quality indicators such as delay and packets loss. For this
purpose
The concept of sustainability in architecture from the
perspective of architectural thought focuses on creating a
successful relationship between the building and the user
and the environment through sustainable design principles
and the preserva
The International Accounting Standards have gained a wide international approval
where they attempted to unify accounting practices on an international level to help
investors and others in the process of decision- making on a unified basis. Numero