ترغب بنشر مسار تعليمي؟ اضغط هنا

مدمجة الدلالية والفيديو بعد تصحيح التعرف على الكلام الصينية

Integrated Semantic and Phonetic Post-correction for Chinese Speech Recognition

213   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نظرا للتقدم المؤخرا لمعالجة اللغات الطبيعية، قامت عدة أعمال بتطبيق نموذج اللغة الملثم المدرب مسبقا (MLM) من Bert إلى ما بعد تصحيح التعرف على الكلام.ومع ذلك، فإن النماذج القائمة المدربة مسبقا فقط تنظر فقط في التصحيح الدلالي أثناء إهمال السمات الصوتية للكلمات.سوف يؤدي الإصلاح الدلالي الوحيد فقط إلى تقليل الأداء لأن الأخطاء هوموفونية شائعة إلى حد ما في الصيني العسكري.في هذه الورقة، اقترحنا نهجا جديدا لاستغلال التمثيل السياقي بشكل جماعي والمعلومات الصوتية بين الخطأ واستبدال المرشحين لتخفيف معدل الخطأ الصيني العسكري.أظهرت نتائج تجربتنا على مجموعات بيانات التعرف على الكلام العالمي الحقيقي أن طريقةنا المقترحة لها من الواضح أن خفضت من النموذج الأساسي، مما استخدم برت مزاملا مدربا مسبقا كصاصر.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

بسبب شعبية خدمات مساعد الحوار الذكي، أصبح التعرف على عاطفي الكلام أكثر وأكثر أهمية.في التواصل بين البشر والآلات، يمكن للتعرف على العاطفة وتحليل العاطفة تعزيز التفاعل بين الآلات والبشر.تستخدم هذه الدراسة نموذج CNN + LSTM لتنفيذ معالجة العاطفة الكلام ( SER) والتنبؤ بها.من النتائج التجريبية، من المعروف أن استخدام نموذج CNN + LSTM يحقق أداء أفضل من استخدام نموذج NN التقليدي.
في هذه الورقة، نركز على تحسين جودة الملخص الذي تم إنشاؤه بواسطة أنظمة تلخيص الحوار المبشور العصبي.على الرغم من أن طرازات اللغة المدربة مسبقا تولد نتائج رائعة واعدة، إلا أنها لا تزال تحديا لتلخيص محادثة المشاركين المتعددين منذ أن تتضمن الملخص وصفا للو ضع العام وإجراءات كل مكبر صوت.تقترح هذه الورقة استراتيجيات ذات إشراف ذاتي لتصحيح ما بعد تركز على المتكلم في تلخيص حوار المبادرة.على وجه التحديد، تميز نموذجنا أولا أي نوع من تصحيح المتكلم مطلوب في مشروع ملخص ثم يولد ملخص منقح وفقا للنوع المطلوب.تظهر النتائج التجريبية أن أسلوبنا المقترح بتصحيح مشاريع الملخصات بشكل كاف، ويتم تحسين الملخصات المنقحة بشكل كبير في كل من التقييمات الكمية والنوعية.
تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة التي دخلت بقوة في مجالات الحياة المختلفة سواء الطبية أو الأمنية أو الصناعية. و بناءً عليه تم تطوير العديد من الأنظمة المعتمدة على طرق مختلفة في استخلاص السمات و التصنيف. في هذا البحث تم إنشاء ثلاث ة أنظمة للتعرف على الكلام، تختلف عن بعضها البعض بالطرق المستخدمة في مرحلة استخلاص السمات، حيث استخدم النظام الأول خوارزمية MFCC بينما استخدم النظام الثاني خوارزمية LPCC أما النظام الثالث فاستخدم خوارزمية PLP. تشترك هذه الأنظمة بطريقة التصنيف حيث استخدمت خوارزمية الـHMM كمصنف. في البداية تم دراسة و تقييم أداء عملية التعرف على الكلام للأنظمة الثلاثة السابقة المقترحة منفردةً. بعد ذلك تم تطبيق خوارزمية الجمع على كل زوج من الأنظمة المدروسة و ذلك لدراسة أثر خوارزمية الجمع في تحسين التعرف على الكلام. تم اعتماد نوعين من الأخطاء، الأخطاء التزامنية (simultaneous errors) و الأخطاء الاعتمادية ((dependent errors، كوحدة مقارنة لدراسة فعالية خوارزمية الجمع في تحسين أداء عملية التعرف على الكلام. يتبين من نتائج المقارنة أن أفضل نسبة تعرف على الكلام تم الحصول عليها في حالة جمع الخوارزميتان MFCC و PLP حيث تم الحصول على معدل تعرف 93.4%.
تهدف أنظمة تعرف الكلام أليا بشكل عام إلى كتابة ما يقال. تتالف أنظمة تعرف الكلام المستمر آليا في أحدث ما توصل إليه العلم في هذا المجال من أربع مكونات أساسية: معالجة الإشارة، النمذجة الصوتية, النمذجة اللغوية، ومحرك البحث. أما تعرف الكلمات المنفصلة فلا يحتوي على النمذجة اللغوية. التي تقوم بربط الكلمات لتشكيل جملة مفهومة.
في حين أن التعرف على الكيان المسمى (NER) من الكلام كان موجودا طالما أن NER من نص مكتوب لديه، فإن دقة NER من الكلام كانت أيضا أقل بكثير من NER من النص. يبرز ارتفاع شعبية أنظمة الحوار المنطوقة مثل Siri أو Alexa الحاجة إلى أكثر دقة من الكلام من الكلام ل أن NER هو مكون أساسي لفهم ما قاله المستخدمون في الحوار. تتلقى أنظمة الحوار المنطوقة المنطوقة إدخال المستخدم في شكل نصوص التعرف على الكلام التلقائي (ASR)، وببساطة تطبيق نموذج NER المدربين على النص المكتوب إلى نصوص ASR غالبا ما يؤدي إلى دقة منخفضة لأنها مقارنة بالنص المكتبكي، تفتقر نصوص ASR إلى إشارات مهمة مثل علامات الترقيم والرسملة. علاوة على ذلك، فإن الأخطاء في نصوص العصر تجعل أيضا NER من الكلام الصعب. نقترح نماذجين تستغلوا أدلة سياق الحوار ونمط الكلام لاستخراج الكيانات المسماة بدقة أكثر دقة من مربعات الحوار المفتوحة في أنظمة الحوار المنطوقة. تظهر نتائجنا الاستفادة من سياق حوار النمذجة وأنماط الكلام في إعدادتين: إعداد قياسي مع قسم عشوائي من البيانات وأكثر واقعية من الإعداد ولكن أيضا أكثر صعوبة حيث تكون العديد من الكيانات المسماة التي تمت مواجهتها أثناء النشر غير مرئي أثناء التدريب.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا