ترغب بنشر مسار تعليمي؟ اضغط هنا

دراسة تحليلية لخوارزميتي ( MFCC و ENDPOINT) و مدى تأثيرهما في نسب التعرف على الصوت

Analysis study about (MFCC and Endpoint) algorithms and the extent of their impact in voice recognition rates

3812   7   187   0 ( 0 )
 تاريخ النشر 2016
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يشتمل التعرف على الصوت قسمين أساسيين و هما التعرف على الكلام و التعرف على المتكلم، حيث تعد عمليات التعرف هذه من أهم التقنيات الحديثة و قد تم تطوير العديد من الأنظمة التي تختلف بالطرق المستخدمة في استخراج السمات و طرق التصنيف لتدعم أنظمة تعرف من هذا النوع. اشتملت الدراسة في هذا البحث على القسمين السابقين، حيث تم تصميم نظام تعرف على المتكلم و أوامره الصوتية و استخدام عدة خوارزميات متكاملة لإنجاز البحث. قمنا بإجراء دراسة تحليلية لخوارزمية Mel Frequency Cepstral Coefficients ((MFCC المستخدمة في استخراج السمات، و تمت دراسة بارامترين خاصين بهذه الخوارزمية هما عدد المرشحات في بنك المرشحات و عدد السمات المأخوذة من كل إطار و علاقة هذين البارامترين ببعضهما و مدى تأثير قيمتهما على نسب التعرف. و تم استخدام الشبكات العصبية ذات التغذية الأمامية و الانتشار الخلفي للخطأ Forwarding back propagation Neural Networks (FFBPNN)Feed كمصنف و حللنا أداء الشبكة للوصول إلى أفضل خصائص و مكونات محققة عملية التعرف. كما تمت دراسة خوارزمية Endpoint المستخدمة لإزالة فترات الصمت و تأثيرها في نسب التعرف على الصوت.


ملخص البحث
تتناول هذه الدراسة تحليل خوارزميتي MFCC وEndpoint ومدى تأثيرهما على نسب التعرف على الصوت. تتضمن عملية التعرف على الصوت قسمين رئيسيين: التعرف على الكلام والتعرف على المتكلم. تم تصميم نظام للتعرف على المتكلم وأوامره الصوتية باستخدام عدة خوارزميات مكملة. تم إجراء دراسة تحليلية لخوارزمية MFCC التي تستخدم لاستخراج السمات الصوتية، مع التركيز على تأثير عدد المرشحات في بنك المرشحات وعدد السمات المأخوذة من كل إطار على نسب التعرف. كما تم استخدام الشبكات العصبية ذات التغذية الأمامية والانتشار الخلفي للخطأ (FFBPNN) كمصنف، وتم تحليل أداء الشبكة للوصول إلى أفضل خصائص ومكونات لتحقيق عملية التعرف. بالإضافة إلى ذلك، تمت دراسة خوارزمية Endpoint المستخدمة لإزالة فترات الصمت وتأثيرها على نسب التعرف على الصوت. توصلت الدراسة إلى أن زيادة عدد المرشحات في بنك المرشحات وعدد السمات المأخوذة من كل إطار يؤدي إلى تحسين نسب التعرف حتى حد معين، وبعد ذلك تثبت النسب. تم الحصول على أعلى نسبة تعرف قدرها 90.74% عند التعرف على الأوامر الصوتية و87.50% عند التعرف على المتكلم. توصي الدراسة باستخدام بنك مرشحات مكون من عدد مرشحات بين 24-35 واختيار عدد سمات أصغر من عدد المرشحات بقليل لتحقيق أفضل نتائج في التعرف على الصوت.
قراءة نقدية
دراسة نقدية: تعتبر هذه الدراسة خطوة مهمة في مجال التعرف على الصوت، حيث تقدم تحليلاً دقيقاً لخوارزميتي MFCC وEndpoint وتأثيرهما على نسب التعرف. ومع ذلك، يمكن تحسين الدراسة من خلال توسيع قاعدة البيانات المستخدمة لتشمل مجموعة أكبر من المتكلمين والأوامر الصوتية، مما يزيد من دقة النتائج وموثوقيتها. كما يمكن دراسة تأثير خوارزميات أخرى لإزالة فترات الصمت ومقارنتها بخوارزمية Endpoint المستخدمة في هذه الدراسة. بالإضافة إلى ذلك، يمكن تحسين الدراسة من خلال تحليل تأثير الضوضاء البيئية على نسب التعرف وتقديم حلول للتعامل معها. بشكل عام، تعتبر الدراسة قيمة وتقدم نتائج مفيدة، ولكن يمكن تحسينها من خلال توسيع نطاق البحث وتحليل المزيد من العوامل المؤثرة على نسب التعرف.
أسئلة حول البحث
  1. ما هي الخوارزميات التي تم تحليلها في الدراسة؟

    تم تحليل خوارزميتي MFCC وEndpoint في الدراسة.

  2. ما هي أعلى نسبة تعرف تم تحقيقها في الدراسة؟

    تم تحقيق أعلى نسبة تعرف قدرها 90.74% عند التعرف على الأوامر الصوتية و87.50% عند التعرف على المتكلم.

  3. ما هو تأثير زيادة عدد المرشحات في بنك المرشحات على نسب التعرف؟

    زيادة عدد المرشحات في بنك المرشحات تؤدي إلى تحسين نسب التعرف حتى حد معين، وبعد ذلك تثبت النسب.

  4. ما هي التوصيات التي قدمتها الدراسة لتحسين نسب التعرف؟

    توصي الدراسة باستخدام بنك مرشحات مكون من عدد مرشحات بين 24-35 واختيار عدد سمات أصغر من عدد المرشحات بقليل لتحقيق أفضل نتائج في التعرف على الصوت.


المراجع المستخدمة
CARROLL, T.;COLANGELO, R.;STROTT, T."Bird Call Identifier –Identifying Songs of Bird Species through Digital Signal Processing Techniques". 2010,118
Xue, X."Joint Speech and Speaker Recognition Using Neural Networks".NOVIA-University of applied science. 2013,60
(CHOUDHARY, A.;KSHIRSAGAR,R."Process Speech Recognition System using Artificial Intelligence Technique".(IJSCE) ,ISSN: 2231-2307, Volume-2, Issue-5, 2012,PP(239-242
قيم البحث

اقرأ أيضاً

يعد الصوت عنصراً أساسياً من عناصر الأوساط المتعددة، و نتيجة الحاجة إلى استخدامه في كثير من التطبيقات الحياتية كالبث التلفزيوني و برامج التواصل، لذا كانت الضرورة لوجود تقنيات لمعالجة إشارة الصوت من ضغط و تحسين و تقليل ضجيج. تكمن أهمية عملية ضغط البيا نات في تخفيض معدل البتات المستخدمة، و ذلك عن طريق ترميز المعلومات باستخدام عدد أقل من البتات من التمثيل الأصلي من أجل الإرسال و التخزين. حيث تقوم بتحديد المعلومات غير الضرورية و إزالتها، أي تعطي المعلومات التي ضُغطت ضغط الاستخدام ما نحتاجه كشكل أساسي و ليس أدق التفاصيل. يهدف البحث إلى دراسة كيفية معالجة الصوت و الإشارة الموسيقية، و هي عملية تضم بعض التطبيقات كالترميز و الضغط الرقمي بهدف النقل الفعال و التخزين على الهواتف النقالة و مشغلات الموسيقا المحمولة، و نمذجة واستنساخ صوت الآلات الموسيقية و قاعات الموسيقا و توافقيات الموسيقا الرقمية، و تحرير الموسيقا الرقمية، و تصنيف محتوى الموسيقا بالإضافة إلى أمور أخرى.
نظرا للتزايد الكبير لاستخدام تراسل البيانات و خدمات تبادل المعلومات بأنواع مختلفة ضمن بيئات متباينة عتادياً و برمجياً كان لابد من وجود لغة توصيف مثالية قابلة للتوسع و التطوير تخدم هذه الاحتياجات المتزايدة بأفضل شكل و بأقصر وقت ممكن و كانت اللغة الاكث ر انتشاراً و الأكثر استخداماً لغة XML. كما أن اعتماد بنية الرسوميات احياناً خلق مشكلة أثرت على أداء شبكات نقل المعلومات نظرا للحجم الكبير للبيانات المتبادلة و كذلك الحاجة لسعة تخزينية كبيرة في طرفي الارسال و الاستقبال لذا كان لابد من إيجاد طرق فعالة لإنقاص حجم تلك البيانات التي يتم تبادلها من خلال الشبكة. تم إجراء العديد من الأبحاث العلمية و التجارب العملية حول إيجاد طرق فعالة لإنقاص الحجم الفعلي للبيانات و باعتماد بارامترات مختلفة تؤثر على عملية ضغط الملفات بحيث تحقق نتائج أفضل بالتقليل من حجوم الملفات المتبادلة مع الانتباه الى أزمنة ضغط و فك الضغط للملفات. لذا تم التركيز في هذا البحث على دراسة و مقارنة لبعض خوارزميات الضغط للملفات و بيان أثرها على تراسل البيانات في الشبكات.
سيتم في هذا البحث دراسة أداء خدمة نقل الصوت VOIP عبر شبكة الانترنت من خلال مقارنة أداء بروتوكول تهيئة الجلسة SIP و بروتوكول H323 و تقييم محددات الجودة كالتأخير الزمني، نسبة ضياع الرزم و عدد المكالمات الفعالة في الشبكة مع تغير عدد المستخدمين لل شبكة. لتحقيق ذلك سنقوم باستخدام تقنية المحاكاة المناسبة و هي OPNET.
إن مفهوم الاستدامة في العمارة من منظور الفكر المعماري يركز على إيجاد علاقة ناجحة بين المبنى و المستخدم و البيئة عن طريق تحقيق مبادئ التصميم المستدام و الحفاظ على هذه المبادئ سواء بالحفاظ المادي أو المعنوي, و بناء على ذلك فإن أبحاث المواد المتقدمة تحظى بأولوية عالية, حيث يشهد قطاع البناء و التشييد مزيد من التطور, كما أصبحت المسائل المتعلقة بالمباني الذكية و المستدامة أكثر أهمية. هذا مادعانا لتحليل مواد البناء ذات التقنية العالية لمعرفة مدى تأثيرها على استدامة المباني.
لقيت معايير المحاسبة الدولية IAS قبولاً دولياً واسعاً، فقد جاءت كمحاولة لتوحيد الممارسات المحاسبية على المستوى الدولي لمساعدة المستثمرين و غيرهم في عملية اتخاذ القرارات على أسس موحدة، كما أثبتت العديد من الدراسات في الدول العربية أهمية تبني هذه المعا يير و تطبيقها، لذلك جاء هذا البحث لتقصي مدى تطبيق معايير المحاسبة الدولية في بلدين عربيين هما سورية و لبنان، و ذلك فيما يتعلق بناحية الاعتراف بالموجودات الثابتة المادية و قياسها، و قد درِس ذلك من خلال استبانة وزعت على عينتين من المحاسبين في كلا البلدين، و تم التوصل إلى نتائج تفيد بأن المحاسبين في كلا البلدين لا يطبقون معيار المحاسبة الدولي رقم 16 (الممتلكات و المعدات و المصانع) بشكل كامل و إنما تقترب ممارساتهم المحاسبية اقتراباً كبيراً من هذا المعيار لكن بشكل متغاير بين البلدين، مما يجعل مقارنة الفرص المتاحة للمستثمرين في البلدين غير مبنية على أسس موحدة، كما توصل البحث إلى أهم النقاط التي لا يطبقها المحاسبون في كلا البلدين فيما يتعلق بهذا المعيار.
التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا