تم في هذا البحث دراسة طريقة النص المستقل (Text-independent) لتحديد هوية
الشخص باستخدام صوته (Voice Identification) و المبنية على أساس استخراج
المي ا زت/السمات (Features) الخاصة من الإشارة الصوتية، و التي تميز التنبؤ الخطي
(Linear Prediction) لسلوك دالة الترابط الذاتي (Autocorrelation Function) لسبستروم
(Cepstrum) الإشارة الصوتية.
In this paper, the text-independent method of person voice
identification based on the features extraction from speech signal
that characterize the linear prediction of the behavior of the
autocorrelation function of the voice signal cepstrum are considered
and developed.
Artificial intelligence review:
Research summary
تتناول هذه الورقة البحثية طريقة النص المستقل لتحديد هوية المتحدث باستخدام صوته، حيث تعتمد على استخراج الميزات من الإشارة الصوتية التي تميز التنبؤ الخطي لسلوك دالة الترابط الذاتي لسبستروم الإشارة الصوتية. يتم بناء نموذج صوتي للشخص على أساس متجه الميزات باستخدام نموذج خليط غاوس (GMM) الأكثر معقولية. يتم تنفيذ عملية تحديد الهوية عن طريق اختيار النموذج الذي يمتلك أعلى احتمال لاحق لاستعادته بواسطة الإشارة الصوتية المدخلة. أظهرت الطريقة المدروسة دقة عالية وكافية لتحديد هوية المتحدث باستخدام الصوت بشكل مستقل عن النص، مقارنة بالنتائج العالمية في هذا المجال. تعتمد الطريقة على متطلبات منخفضة لجودة الإشارة الصوتية وتبعية معتدلة لشروط تسجيل الإشارة الصوتية. تم اختبار الطريقة باستخدام بيانات NIST SRE للأعوام 2004، 2006، 2008، وأظهرت نتائج إيجابية في دقة تحديد الهوية.
Critical review
دراسة نقدية: تعتبر هذه الورقة البحثية خطوة مهمة في مجال تحديد هوية المتحدث باستخدام الصوت، إلا أن هناك بعض النقاط التي يمكن تحسينها. أولاً، على الرغم من أن الطريقة تعتمد على متطلبات منخفضة لجودة الإشارة الصوتية، إلا أن هناك حاجة لمزيد من الاختبارات في بيئات مختلفة وظروف تسجيل متنوعة للتأكد من فعالية الطريقة في جميع الحالات. ثانياً، الورقة تركز بشكل كبير على الجانب التقني دون التطرق بشكل كافٍ إلى التطبيقات العملية والتحديات التي قد تواجهها في الاستخدام الفعلي. ثالثاً، يمكن تحسين الورقة بإضافة مقارنة مفصلة مع تقنيات أخرى مشابهة لتوضيح الفروق والميزات بشكل أوضح. وأخيراً، قد يكون من المفيد تقديم تحليل أعمق للأخطاء التي تحدث أثناء عملية تحديد الهوية وكيفية تقليلها.
Questions related to the research
-
ما هي الطريقة المستخدمة لتحديد هوية المتحدث في هذه الورقة؟
الطريقة المستخدمة هي طريقة النص المستقل لتحديد هوية المتحدث باستخدام صوته، وتعتمد على استخراج الميزات من الإشارة الصوتية وبناء نموذج صوتي باستخدام نموذج خليط غاوس (GMM).
-
ما هي الميزات التي تعتمد عليها الطريقة المقترحة في تحديد هوية المتحدث؟
تعتمد الطريقة على الميزات المستخرجة من التنبؤ الخطي لسلوك دالة الترابط الذاتي لسبستروم الإشارة الصوتية.
-
ما هي البيانات المستخدمة لاختبار الطريقة المقترحة؟
تم استخدام بيانات NIST SRE للأعوام 2004، 2006، 2008 لاختبار الطريقة المقترحة.
-
ما هي النتائج التي توصلت إليها الدراسة بشأن دقة الطريقة المقترحة؟
أظهرت الدراسة أن الطريقة المقترحة تتمتع بدقة عالية وكافية لتحديد هوية المتحدث باستخدام الصوت بشكل مستقل عن النص، مقارنة بالنتائج العالمية في هذا المجال.
References used
REYNOLDS, D, 1994 Experimental evaluation of features for robust speaker identification. IEEE Trans. On Speech and Audio Processing. Vol. 2. No. 4, 639–643
BIMBOT, F, A, 2004 tutorial on text-independent speaker verification. EURASIP J. on Applied Signal Processing. No. 4, 430–451
REYNOLDS, D; ROSE, R, 1995 Robust text-independent speaker identification using Gaussian mixture speaker models. IEEE Trans. On Speech and Audio Processing. No. 3, 72–83
The analysis of time series data is one of the most important statistical
topics, usually focuses on forecasting the future behavior of the series at a
certain time for certain purposes.
The current researches are moving towards more development in order to provide the
growing the needs of users such as support real-time applications, quality of service,
particularly; the high data rate transfer and other. That prompts the network
أجريت الدراسة في مخابر كلية الزراعة قسم علوم الاغذية ومخابر الميكروبيولوجيا والمناعيات بقسم البيولوجيا الجزيئية والتقانة الحيوية بهيئة الطاقة الذرية.
With the growing popularity of smart speakers, such as Amazon Alexa, speech is becoming one of the most important modes of human-computer interaction. Automatic speech recognition (ASR) is arguably the most critical component of such systems, as erro
We present a new form of ensemble method--Devil's Advocate, which uses a deliberately dissenting model to force other submodels within the ensemble to better collaborate. Our method consists of two different training settings: one follows the convent