نظرا للتقدم المؤخرا لمعالجة اللغات الطبيعية، قامت عدة أعمال بتطبيق نموذج اللغة الملثم المدرب مسبقا (MLM) من Bert إلى ما بعد تصحيح التعرف على الكلام.ومع ذلك، فإن النماذج القائمة المدربة مسبقا فقط تنظر فقط في التصحيح الدلالي أثناء إهمال السمات الصوتية للكلمات.سوف يؤدي الإصلاح الدلالي الوحيد فقط إلى تقليل الأداء لأن الأخطاء هوموفونية شائعة إلى حد ما في الصيني العسكري.في هذه الورقة، اقترحنا نهجا جديدا لاستغلال التمثيل السياقي بشكل جماعي والمعلومات الصوتية بين الخطأ واستبدال المرشحين لتخفيف معدل الخطأ الصيني العسكري.أظهرت نتائج تجربتنا على مجموعات بيانات التعرف على الكلام العالمي الحقيقي أن طريقةنا المقترحة لها من الواضح أن خفضت من النموذج الأساسي، مما استخدم برت مزاملا مدربا مسبقا كصاصر.
Due to the recent advances of natural language processing, several works have applied the pre-trained masked language model (MLM) of BERT to the post-correction of speech recognition. However, existing pre-trained models only consider the semantic correction while the phonetic features of words is neglected. The semantic-only post-correction will consequently decrease the performance since homophonic errors are fairly common in Chinese ASR. In this paper, we proposed a novel approach to collectively exploit the contextualized representation and the phonetic information between the error and its replacing candidates to alleviate the error rate of Chinese ASR. Our experiment results on real world speech recognition datasets showed that our proposed method has evidently lower CER than the baseline model, which utilized a pre-trained BERT MLM as the corrector.
المراجع المستخدمة
https://aclanthology.org/
بسبب شعبية خدمات مساعد الحوار الذكي، أصبح التعرف على عاطفي الكلام أكثر وأكثر أهمية.في التواصل بين البشر والآلات، يمكن للتعرف على العاطفة وتحليل العاطفة تعزيز التفاعل بين الآلات والبشر.تستخدم هذه الدراسة نموذج CNN + LSTM لتنفيذ معالجة العاطفة الكلام (
في هذه الورقة، نركز على تحسين جودة الملخص الذي تم إنشاؤه بواسطة أنظمة تلخيص الحوار المبشور العصبي.على الرغم من أن طرازات اللغة المدربة مسبقا تولد نتائج رائعة واعدة، إلا أنها لا تزال تحديا لتلخيص محادثة المشاركين المتعددين منذ أن تتضمن الملخص وصفا للو
تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة التي دخلت بقوة في مجالات الحياة المختلفة سواء الطبية أو الأمنية أو الصناعية. و بناءً عليه تم تطوير العديد من الأنظمة المعتمدة على طرق مختلفة في استخلاص السمات و التصنيف.
في هذا البحث تم إنشاء ثلاث
تهدف أنظمة تعرف الكلام أليا بشكل عام إلى كتابة ما يقال. تتالف أنظمة تعرف الكلام المستمر آليا في أحدث ما توصل إليه العلم في هذا المجال من أربع مكونات أساسية: معالجة الإشارة، النمذجة الصوتية, النمذجة اللغوية، ومحرك البحث. أما تعرف الكلمات المنفصلة فلا
في حين أن التعرف على الكيان المسمى (NER) من الكلام كان موجودا طالما أن NER من نص مكتوب لديه، فإن دقة NER من الكلام كانت أيضا أقل بكثير من NER من النص. يبرز ارتفاع شعبية أنظمة الحوار المنطوقة مثل Siri أو Alexa الحاجة إلى أكثر دقة من الكلام من الكلام ل