ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين استخراج السمات السمعية في الأنظمة السمعية البصرية للمتحدثين باللغة العربية

Improving the extraction of audio features In audio-visual Arabic systems

1319   2   49   0 ( 0 )
 تاريخ النشر 2017
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد أنظمة التعرف السمعية البصرية التي تعتمد على صوت و حركة شفاه المتكلم من أهم أنظمة التعرف على الكلام. و قد تم تطوير العديد من التقنيات المختلفة من حيث الطرائق المستخدمة في استخراج السمات و طرائق التصنيف. يقترح البحث إنشاء نظام للتعرف على الكلمات المعزولة بالاعتماد السمات السمعية المستخرجة من فيديوهات منطوقة لكلمات باللغة العربية في بيئة خالية من الضجيج، و من ثم إضافة مكون الطاقة و المشتقات التفاضلية في مرحلة استخراج السمات لخوارزمية معاملات تردد الميل.


ملخص البحث
تتناول هذه الدراسة تحسين استخراج السمات السمعية في أنظمة التعرف السمعية البصرية للناطقين باللغة العربية. تعتمد هذه الأنظمة على الصوت وحركة شفاه المتكلم، وقد تم تطوير العديد من التقنيات المختلفة في هذا المجال. يقترح البحث إنشاء نظام للتعرف على الكلمات المعزولة باستخدام السمات السمعية المستخرجة من فيديوهات منطوقة لكلمات باللغة العربية في بيئة خالية من الضجيج. يتم إضافة مكون الطاقة والمشتقات التفاضلية في مرحلة استخراج السمات لخوارزمية معاملات تردد الميل (MFCC). تم استخدام نماذج ماركوف المخفية (HMM) في مرحلة التصنيف. أظهرت النتائج أن إضافة السمات إلى خوارزمية MFCC زادت من أداء النظام، حيث وصلت نسبة التعرف إلى 92%. يتضمن البحث قاعدة بيانات تحتوي على 13850 مقطع فيديو ل 36 كلمة معزولة منطوقة باللغة العربية من قبل خمسين متكلم تتراوح أعمارهم بين 18 و60 عامًا. تم استخدام بيئة العمل Matlab2014a ومكتبات voicebox وsignal processing. توصل البحث إلى أن إضافة مكون الطاقة والمشتقات التفاضلية حسنت من عملية استخراج السمات السمعية وبالتالي أداء النظام ككل.
قراءة نقدية
تقدم هذه الدراسة مساهمة قيمة في تحسين أنظمة التعرف على الكلام للناطقين باللغة العربية، خاصة في بيئات خالية من الضجيج. ومع ذلك، هناك بعض النقاط التي يمكن تحسينها. أولاً، تم اختبار النظام في بيئة خالية من الضجيج، مما قد لا يعكس الأداء في الظروف الواقعية حيث يكون الضجيج موجودًا. لذلك، يمكن أن تكون الدراسة أكثر شمولية إذا تم اختبار النظام في بيئات متنوعة تحتوي على مستويات مختلفة من الضجيج. ثانيًا، يمكن أن تكون النتائج أكثر قوة إذا تم مقارنة أداء النظام مع أنظمة أخرى تستخدم تقنيات مختلفة لاستخراج السمات. أخيرًا، يمكن أن تكون الدراسة أكثر تفصيلاً في شرح كيفية تأثير المشتقات التفاضلية ومكون الطاقة على تحسين أداء النظام.
أسئلة حول البحث
  1. ما هي الخوارزمية المستخدمة في استخراج السمات في هذه الدراسة؟

    تم استخدام خوارزمية معاملات تردد الميل (MFCC) في استخراج السمات في هذه الدراسة.

  2. ما هي نسبة التعرف التي حققها النظام بعد إضافة مكون الطاقة والمشتقات التفاضلية؟

    وصلت نسبة التعرف إلى 92% بعد إضافة مكون الطاقة والمشتقات التفاضلية.

  3. ما هي بيئة العمل المستخدمة في هذه الدراسة؟

    تم استخدام بيئة العمل Matlab2014a ومكتبات voicebox وsignal processing.

  4. كم عدد العينات التي تم اختبار النظام عليها؟

    تم اختبار النظام على 4155 عينة.


المراجع المستخدمة
Marius Zbancioc, Mihaela Costin :using neural networks and LPCC to improve speech recognition, International IEEE SCS Conference, Proceedings, Vol. 1, 2003 EX 720, pp. 445 – 448
Levy, C., Linares, G., Nocera, P., Bonastre, J.-F. : Reducing computational and memory cost for cellular phone embedded speech recognition system, Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP '04). IEEE International Conference on (Volume:5 ) , pages( 309-12) vol.5 , Print ISBN:9-8484-7803-0
Dimitriadis, Maragos, P. Potamianos: Robust AM-FM Features for Speech Recognition, IEEE signal processing letters, VOL. 12, NO. 9, 2005
قيم البحث

اقرأ أيضاً

تهدف هذه الدراسة إلى تحديد درجة المشكلات النفسية و الأكاديمية و الاقتصادية التي يواجهها الطلبة ذوي الاحتياجات الخاصة (الإعاقة السمعية و البصرية) في كلية الآداب في جامعة دمشق و التعرف على الفروق في هذه المشكلات بين أفراد عينة البحث. تألفت العينة من / 27 / طالباً و طالبة من طلبة كلية الآداب في جامعة دمشق، جرى اختيارهم بطريقة قصدية.
فسنعرض في هذا البحث أشهر البصمات المستحدثة في التحقيق الجنائي و هي البصمة الصوتية و البصرية, و أوضحنا إن لهذه البصمات تطبيقات تهم المختصين في علم الجريمة و الأدلة الجنائية, فمن خلال البصمة الصوتية و البصرية يمكن التعرف على المتهمين و ادانتهم بجريم تهم أو رفعها عنهم, كما توصلنا أخيرا إلى أن هذا النوع من البصمات تخضع لمبدأ مشروعية الدليل كغيرها من أدلة الإثبات, و لا شيء يمنع من استخدامهما في الإثبات الجزائي مع مراعاة بعض الضوابط التي لا غنى عنها لمشروعيتهما.
تعتبر تصور القصة مهمة غير مسجلة تقع عند تقاطع العديد من الاتجاهات البحثية المهمة في كل من رؤية الكمبيوتر ومعالجة اللغات الطبيعية. في هذه المهمة، نظرا لسلسلة من التسميات التوضيحية باللغة الطبيعية التي تنشأ قصة، يجب أن يولد الوكيل سلسلة من الصور التي ت توافق مع التسميات التوضيحية. قدم العمل السابق نماذج تائحة تكرار تتفوق نماذج توليف النص إلى الصورة في هذه المهمة. ومع ذلك، هناك مجال لتحسين الصور التي تم إنشاؤها من حيث الجودة البصرية والتماسك والأهمية. نقدم عددا من التحسينات إلى نهج النمذجة السابقة، بما في ذلك (1) إضافة إطار تعليمي مزدوج يستخدم تقسيم الفيديو لتعزيز المحاذاة الدلالية بين القصة والصور التي تم إنشاؤها، (2) آلية تحويل النسخ المتوسطة تصور القصة، و (3) من المحولات المستندة إلى مارت إلى التفاعلات المعقدة بين الإطارات. نقدم دراسات الاجتثاث لإظهار تأثير كل تقنيات من هذه التقنيات على القوة المنتجة للنموذج لكل من الصور الفردية وكذلك السرد بأكمله. علاوة على ذلك، بسبب تعقيد الطبيعة والطبيعة الإندنية للمهمة، لا تعكس مقاييس التقييم القياسية الأداء بدقة. لذلك، فإننا نقدم أيضا استكشاف مقاييس التقييم للنموذج، ركز على جوانب الإطارات التي تم إنشاؤها مثل وجود / جودة الشخصيات الناتجة، والأهمية التعيينات، وتنوع الصور التي تم إنشاؤها. نقدم أيضا تجارب الارتباط لمقاييسنا الآلية المقترحة مع التقييمات البشرية.
في السنوات الأخيرة، أعاد ظهور منصات تدفق مثل Netflix أو HBO أو Amazon Prime Prieet في مجال الترفيه، والذي يعتمد بشكل متزايد على أوضاع الروائح أو الصوت على الصوت. ومع ذلك، يعرف القليل عن الترجمة السمعية البصرية عند التعامل مع محركات الترجمة الآلية الع صبية (NMT). تسعى ورقة العمل في العمل هذه إلى فحص الترجمات الإنجليزية من الحلقة الأولى للفتيات الكابلات الإسبانية سلسلة Netflix الشهيرة والنسخة المترجمة التي تم إنشاؤها بواسطة Google Translate و Deepl. سيساعدنا هذا التحليل في تحديد ما إذا كانت هناك اختلافات لغوية كبيرة يمكن أن تؤدي إلى سوء فهم أو صدمات ثقافية. تحقيقا لهذه الغاية، تتكون Corpus Compounts من البرنامج النصي الإسباني، المتاحة الترجمات الإنجليزية في Netflix والإصدار المترجم من البرنامج النصي. لتحليل البيانات، تم تصنيف الأخطاء بعد مصممة خطأ DQF / MQM وتم تقييمها باستخدام Metric Bleu التلقائي. تظهر النتائج أن محركات NMT تقدم ترجمات ذات نوعية جيدة، والتي بدورها قد تستفيد المترجمين الذين يعملون مع موارد الترفيه البصرية.
أُحدثت في العالم الإسلامي كليات للتربية و معاهد للتعليم؛ تبنت قيم الآخرين و تجاربهم، متجاهلة تراث الأمة التربوي. و التاريخ أصدق شاهد، و الواقع خير برهان، ففي حين عادى الغرب العلم، و أقصى العلماء، أرسى الإسلام قواعد منهج تربوي ثبتت نجاعته، و وضع أسساً للبحث العلمي، و هدفت هذه الدراسة إلى توضيح أهم معالم التربية النبوية في تفعيل الوسائل السمعية و البصرية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا