شرح تقنية التعرف على الصوت Voice Recognition

ما هو نظام التعرف على الكلام؟

هو نظام يقوم بتحويل الكلام المنطوق إلى نصوص يمكن كتابتها كملف في محرر النصوص أو مستند نصي في البريد الإلكتروني، وكذلك يقوم بتحويل الأوامر الصوتية التي يعطيها المستخدم للحاسب إلى أوامر وظيفية مثل فتح الملفات أو الوصول إلى القوائم وغيرها.

استخدامات أنظمة التعرف على الكلام:

تطبق بعض الشركات الكبرى في الوقت الحالي في أنظمتها للرد الآلي نظام التعرف على الكلام بأن يجيب تسجيل صوتي، يرشد المتصل إلى ضغط أزرار محددة تنقله إلى قائمة الخيارات، كما أن بعض الشركات ذهبت إلى أبعد من ذلك حيث باستطاعة المتصل نطق بعض الكلمات كأوامر للحصول على غايته. كذلك تستخدم أنظمة التعرف على الكلام لمساعدة وخدمة ذوي الاحتياجات الخاصة ممن لديهم إعاقة بدنية في الأطراف العلوية (اليدين) فلا يستطيعون الكتابة أو إعاقة بصرية ولا يمكنهم استخدام لوحة المفاتيح بريل (Braille) فتمكنهم من التحكم في العديد من المهام الحاسوبية عن طريق الأوامر الصوتية. كما تقوم أنظمة التعرف على الكلام بحفظ بيانات كلام كل مستخدم على حدة بعد كل جلسة لتسمح للأشخاص الذي يعانون من التلعثم أثناء الكلام من الاستمرار بإعطاء الأوامر لحواسيبهم، إضافةً إلى المجالات التي ذكرت سابقاً فإن بعض أنظمة التعرف على الكلام تخصص لمجالات محددة مثل المجال الطبي أو النسخ القضائي أو المجال التعليمي.

أنواع أنظمة التعرف على الكلام:

يمكن حصر أنواع أنظمة التعرف على الكلام في فئتين: أنظمة مستقلة وأنظمة غير مستقلة.

- أنظمة التعرف على الكلام المستقلة (مفردات محدودة/ عدد كبير من المستخدمين)

هي أنظمة جاهزة للاستخدام ولا تحتاج إلى التدريب علي صوت المستخدم أولاً، وتقتصر هذه الأنظمة على عدد محدود من الأوامر الصوتية المتاحة مثل خيارات القوائم الأساسية والأرقام. تعتبر هذه الأنظمة مثالية للاستخدام في الشركات التي تستخدم أنظمة الهاتف الآلي لخدمة مستخدميها، حيث يستطيع المستخدم التحدث بعدد كبير من اللهجات وعينات الكلام ويبقى نظام التعرف على الكلام المستقل رغم ذلك قادراً على فهمها في الغالب وتنفيذ الأمر الصوتي للمستخدم دون الحاجة إلى تدخل العنصر البشري.

- أنظمة التعرف على الكلام غير المستقلة (عشرات الآلاف من المفردات/عدد محدود من المستخدمين)

هي أنظمة يجب أن تدرب على صوت المتحدث قبل استخدامها كأن ينطق المتحدث أوامر صوتية معينة تجعل صوته مألوفاً للنظام، كنظام الطلب الصوتي في الهواتف المحمولة (مثال: اتصل بالمنزل)؛ وتوجيه المكالمات، البحث (مثال: ما هي حالة الطقس اليوم) أو إدخال البيانات (مثال: أدخل رقم البطاقة الائتمانية)، إعداد خطابات معالجة النصوص (مثل: معالج الكلمات"Word" أو إعداد رسائل البريد الإلكتروني). تصل دقة هذه الأنظمة في الوقت الحالي لـ ٨٥٪ وتستخدم هذه الأنظمة بشكل واسع في مجالات الأعمال والمجالات التعليمية كالنظام الذي يستخدم لخدمة الطلاب ذوي الإعاقة السمعية، حيث يعتمد على نقل صورة المدرس إلى الطالب عن طريق الكمبيوتر وتحويل الصوت إلى نص مقروء ليتمكن الطالب من متابعة الشرح.

آلية عمل أنظمة التعرف على الكلام:

يقوم الحاسوب بعدة خطوات معقدة من أجل تحويل الكلام إلى نص مقروء أو أوامر حاسوبية منها:

تحويل الكلام إلى بيانات رقمية:

(١) يتم تحويل الإشارة الصوتية التناظرية التي يتلاقاها النظام على شكل اهتزازات عبر الميكرفون إلى إشارة صوتية رقمية مقسمة إلى عناصر ليستطيع النظام فهمها والتعامل معها، وكلما كانت العناصر أصغر كلما كانت الدقة أعلى والجودة أكثر.

(٢) يقوم النظام بالتخلص من الأصوات التي تشكل ضجيجاً يتداخل مع الصوت، كما يقوم بضبط سرعة الصوت لتتوافق مع سرعة الصوت المعياري المخزن في النظام لأن كل شخص يتحدث بسرعة تختلف عن الآخر.

(٣) يتم مقارنة مكونات الصوت (الفونيمات phonemes ) بالمقاطع الصوتية التي قام النظام بتخزينها بعد تدريبة من قبل المستخدم، الفونيمات إحدى وحدات الكلام لقياس الصوت الذي يميز كل حرف عن الآخر عند نطقه.

(٤) التحليل والكشف عن اللفظ اللغوي في الجملة وفصلة عن الصوت عن طريق استخدام المحاولات الإحصائية المعقدة ومن ثم مقارنة النتائج مع المكتبات الضخمة التي تم إنشاؤها من الكلمات المعروفة والجمل الشائعة والعبارات المتداولة.

التعرف على الكلام ونمذجة الكلام إحصائياً:

تطبق أنظمة التعرف علي الكلام أنظمة نمذجة إحصائية معقدة بسبب صعوبة استيعاب الكلام المستمر والمتسلسل وبسبب تشابه بعض كلمات اللغة في الصوت وطريقة النطق، ومن أكثر هذه الأنظمة شيوعاً نموذج ماركوف الخفيthe hidden markov model والشبكات العصبية neural networks.

نقاط الضعف لنظام التعرف على الكلام:

هناك العديد من العوامل التي ما زالت تأثر عل أنظمة التعرف على الكلام فتقلل من كفاءتها ودقتها؛ فليس هنالك نظام مثالي ١٠٠٪ ومن هذه العوامل ما يلي:

انخفاض جودة الإشارة الصوتية بسبب الضجيج:

- الكلام المتداخل وهو الكلام الصادر من عدة مستخدمين بنفس الوقت. يقول جون غاروفولو: "إذا استخدمت تقنية التعرف على الكلام في الحوارات والمقابلات التي يقاطع فيها الأشخاص بعضهم البعض، أو التكلم بينما يقوم شخص آخر بالكلام فسوف تعطي بلا شك نتائج مزريةٍ للغاية".

- الكلمات المتجانسة يصعب على أنظمة التعرف على الكلام تمييز الكلمات التي تتشابه في الصوت مع اختلافها في الإملاء والمعنى.

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

مجتمع الباحثين

شرح تقنية التعرف على الصوت Voice Recognition