WAV-BERT: التعلم التعاوني الصوتي واللغوي التعلم للتعرف على الكلام منخفض الموارد


الملخص بالعربية

أصبح توحيد التعلم الصوتي واللغوي أمرا مهما بشكل متزايد بنقل المعرفة المستفادة بشأن وفرة بيانات لغة الموارد عالية الموارد للحصول على التعرف على الكلام المنخفض الموارد. الأساليب الحالية ببساطة تتالي النماذج الصوتية واللغة المدربة مسبقا لتعلم النقل من الكلام إلى النص. ومع ذلك، فإن كيفية حل تناقض التمثيل في الكلام والنص غير مستكشفة، مما يعيق استخدام المعلومات الصوتية واللغوية. علاوة على ذلك، يعمل الأمر السابق ببساطة استبدال طبقة تضمين نموذج اللغة المدربة مسبقا مع الميزات الصوتية، والتي قد تتسبب في مشكلة نسيان الكارثي. في هذا العمل، نقدم WAV-Bert، وهي طريقة تعليمية تعاونية وصوتية وممثلة على الصمامات والاستفادة من المعلومات السياقية من الكلام والنص. على وجه التحديد، نقوم بتحديد نموذج صوت صوتي مدرب مسبقا (WAV2VEC 2.0) ونموذج لغة (Bert) في إطار قابل للتدريب من طرف إلى نهاية. تم تصميم وحدة تجميع التمثيل لتجميع التمثيل الصوتي واللغوي، ويتم تقديم وحدة الانتباه التضمين لإدماج المعلومات الصوتية في بيرت، والتي يمكن أن تسهل بفعالية تعاون نماذج مدربة مسبقا وبالتالي تعزيز تعلم التمثيل. تشير التجارب الواسعة إلى أن لدينا WAV-Bert تنفأ بشكل كبير على النهج الحالية وتحقيق الأداء الحديث في التعرف على الكلام المنخفض الموارد.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث