ترغب بنشر مسار تعليمي؟ اضغط هنا

طريقة النص المستقل لتحديد هوية المتحدث باستخدام صوته

1253   1   11   0 ( 0 )
 تاريخ النشر 2016
  مجال البحث الهندسة المعلوماتية
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم في هذا البحث دراسة طريقة النص المستقل (Text-independent) لتحديد هوية الشخص باستخدام صوته (Voice Identification) و المبنية على أساس استخراج المي ا زت/السمات (Features) الخاصة من الإشارة الصوتية، و التي تميز التنبؤ الخطي (Linear Prediction) لسلوك دالة الترابط الذاتي (Autocorrelation Function) لسبستروم (Cepstrum) الإشارة الصوتية.


ملخص البحث
تتناول هذه الورقة البحثية طريقة النص المستقل لتحديد هوية المتحدث باستخدام صوته، حيث تعتمد على استخراج الميزات من الإشارة الصوتية التي تميز التنبؤ الخطي لسلوك دالة الترابط الذاتي لسبستروم الإشارة الصوتية. يتم بناء نموذج صوتي للشخص على أساس متجه الميزات باستخدام نموذج خليط غاوس (GMM) الأكثر معقولية. يتم تنفيذ عملية تحديد الهوية عن طريق اختيار النموذج الذي يمتلك أعلى احتمال لاحق لاستعادته بواسطة الإشارة الصوتية المدخلة. أظهرت الطريقة المدروسة دقة عالية وكافية لتحديد هوية المتحدث باستخدام الصوت بشكل مستقل عن النص، مقارنة بالنتائج العالمية في هذا المجال. تعتمد الطريقة على متطلبات منخفضة لجودة الإشارة الصوتية وتبعية معتدلة لشروط تسجيل الإشارة الصوتية. تم اختبار الطريقة باستخدام بيانات NIST SRE للأعوام 2004، 2006، 2008، وأظهرت نتائج إيجابية في دقة تحديد الهوية.
قراءة نقدية
دراسة نقدية: تعتبر هذه الورقة البحثية خطوة مهمة في مجال تحديد هوية المتحدث باستخدام الصوت، إلا أن هناك بعض النقاط التي يمكن تحسينها. أولاً، على الرغم من أن الطريقة تعتمد على متطلبات منخفضة لجودة الإشارة الصوتية، إلا أن هناك حاجة لمزيد من الاختبارات في بيئات مختلفة وظروف تسجيل متنوعة للتأكد من فعالية الطريقة في جميع الحالات. ثانياً، الورقة تركز بشكل كبير على الجانب التقني دون التطرق بشكل كافٍ إلى التطبيقات العملية والتحديات التي قد تواجهها في الاستخدام الفعلي. ثالثاً، يمكن تحسين الورقة بإضافة مقارنة مفصلة مع تقنيات أخرى مشابهة لتوضيح الفروق والميزات بشكل أوضح. وأخيراً، قد يكون من المفيد تقديم تحليل أعمق للأخطاء التي تحدث أثناء عملية تحديد الهوية وكيفية تقليلها.
أسئلة حول البحث
  1. ما هي الطريقة المستخدمة لتحديد هوية المتحدث في هذه الورقة؟

    الطريقة المستخدمة هي طريقة النص المستقل لتحديد هوية المتحدث باستخدام صوته، وتعتمد على استخراج الميزات من الإشارة الصوتية وبناء نموذج صوتي باستخدام نموذج خليط غاوس (GMM).

  2. ما هي الميزات التي تعتمد عليها الطريقة المقترحة في تحديد هوية المتحدث؟

    تعتمد الطريقة على الميزات المستخرجة من التنبؤ الخطي لسلوك دالة الترابط الذاتي لسبستروم الإشارة الصوتية.

  3. ما هي البيانات المستخدمة لاختبار الطريقة المقترحة؟

    تم استخدام بيانات NIST SRE للأعوام 2004، 2006، 2008 لاختبار الطريقة المقترحة.

  4. ما هي النتائج التي توصلت إليها الدراسة بشأن دقة الطريقة المقترحة؟

    أظهرت الدراسة أن الطريقة المقترحة تتمتع بدقة عالية وكافية لتحديد هوية المتحدث باستخدام الصوت بشكل مستقل عن النص، مقارنة بالنتائج العالمية في هذا المجال.


المراجع المستخدمة
REYNOLDS, D, 1994 Experimental evaluation of features for robust speaker identification. IEEE Trans. On Speech and Audio Processing. Vol. 2. No. 4, 639–643
BIMBOT, F, A, 2004 tutorial on text-independent speaker verification. EURASIP J. on Applied Signal Processing. No. 4, 430–451
REYNOLDS, D; ROSE, R, 1995 Robust text-independent speaker identification using Gaussian mixture speaker models. IEEE Trans. On Speech and Audio Processing. No. 3, 72–83
قيم البحث

اقرأ أيضاً

يعد تحليل السلاسل الزمنية من الموضوعات الإحصائية المهمة في دراسة سلوك الظواهر عبر حقب زمنية محددة لتحقيق أهداف معينة. و لغرض تحديد النموذج الصحيح الكفوء ليمثل سلسلة زمنية مستقرة.
تتجه الأبحاث الحالية نحو المزيد من التطوير في الشبكات اللاسلكية، و ذلك نتيجة النمو في احتياجات المستخدمين كدعم تطبيقات الزمن الحقيقي، و جودة الخدمة و خصوصاً معدل نقل عالي للبيانات، و غيرها. ما دفع بمزودي خدمة الشبكات العمل على مكاملة العديد من موارد الشبكات المختلفة، و السعي لدعم خدمة الاتصال في أي مكان و زمان. من هنا تأتي أهمية هذا البحث الذي يهدف إلى دراسة عملية التسليم الشاقولي (Vertical Handover) كخطوة مهمة و ضرورية لتأمين حركة العقد المتحركة (MN(Mobile Nodes بين الشبكات اللاسلكية WiFi و WiMax باستخدام المعيار IEEE802.21، أو ما يسمى تقنية التسليم المستقل عن الوسط MIH (Media Independent Handover)، و الذي طُوّر في كانون الثاني 2009. في هذا البحث، تم تقييم أداء التسليم الشاقولي بين هاتين الشبكتين آخذين بالاعتبار عدة معاملات مثل: ضياع البيانات، و التأخير الناتج عن عملية التسليم، و معدل التدفق. و ذلك باستخدام المحاكي (NS2(Network Simulator version2)) و الذي يتضمن دعم لتقنية MIH من قبل المعهد الوطني للمعايير و التقانة (NIST) National Institute of Standard and Technology.
أجريت الدراسة في مخابر كلية الزراعة قسم علوم الاغذية ومخابر الميكروبيولوجيا والمناعيات بقسم البيولوجيا الجزيئية والتقانة الحيوية بهيئة الطاقة الذرية.
مع وجود شعبية متزايدة للمتحدثين الذكية، مثل الأمازون اليكسا، أصبح الكلام أحد أهم طرق التفاعل بين الإنسان والحاسوب. يمكن القول إن التعرف التلقائي على التعرف على الكلام (ASR) هو العنصر الأكثر أهمية في هذه الأنظمة، حيث ينتشر أخطاء في التعرف على الكلام إ لى مكونات المصب التي تتحلل بشكل كبير من تجربة المستخدم. طريقة بسيطة وفعالة لتحسين دقة التعرف على الكلام هي تطبيق ما بعد المعالج التلقائي نتيجة التعرف. ومع ذلك، فإن التدريب على معالج ما بعد البيع يتطلب شركة موازية تم إنشاؤها بواسطة Annwotators البشرية، وهي مكلفة وغير قابلة للتحجيم. لتخفيف هذه المشكلة، نقترح النسخ الخلفي (BTS)، وهي طريقة قائمة على الدنيوية التي يمكن أن تنشئ مثل هذه الشركة دون عمل بشري. باستخدام CORPUS RAW، يقوم BTS بتلف النص باستخدام أنظمة تحويل النص إلى كلام (TTS) ونص الكلام إلى النص (STT). بعد ذلك، يمكن تدريب نموذج ما بعد المعالجة على إعادة بناء النص الأصلي مع إعطاء المدخلات التالفة. تبين التقييمات الكمية والنوعية أن المعالج بعد المعالج المدرب باستخدام نهجنا فعال للغاية في إصلاح أخطاء التعرف على الكلام غير تافهة مثل سوء الكلمات الأجنبية. نقدم Corpus الموازي الذي تم إنشاؤه ومنصة ما بعد المعالجة لجعل نتائجنا متاحة للجمهور.
نقدم شكل جديد من طريقة الفرقة - داعية الشيطان، والذي يستخدم نموذجا مختلفا عمدا لفرض السفلات الأخرى داخل الفرقة للتعاون بشكل أفضل.تتكون طريقتنا من إعدادات تدريبية مختلفة: يتبع المرء عملية التدريب التقليدية (القاعدة)، والآخر يتم تدريبه بواسطة ملصقات تم إنشاؤها بشكل مصطنع (DevAfv).بعد تدريب النماذج، يتم ضبط نماذج القواعد بشكل جيد من خلال وظيفة خسارة إضافية، والتي تستخدم نموذج DevAdh كعائق.في اتخاذ قرار نهائي، يبلغ نموذج الفرقة المقترح درجات نماذج المعايير ثم يطرح نتيجة نموذج DevAdh.يحسن نموذج DevAPAdh الأداء العام للنماذج الأخرى داخل الفرقة.بالإضافة إلى إطار عملنا الذي يعتمد على الخلفية النفسية، فإنه يظهر أيضا أداء مماثل أو محسن على 5 مهام تصنيف النص عند مقارنته بطرق الفرقة التقليدية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا