AND-LITE ASR للتنبؤ المشترك بالتنبؤ بالشروح والشروح اللغوية

نشر في جمعية اللغويات الحاسوبية ACL بتاريخ 2021 في مجال الذكاء الاصناعي والبحث باللغة English تحميل البحث

الملخص بالعربية

نقترح نموذج تسلسل متعدد التسلسل للمحولات للتعرف على الكلام التلقائي (ASR) قادر على نسخ الصوت التلقائي (ASR) من نسخ الصوت في وقت واحد والشروحة مع المعلومات اللغوية مثل النصوص الصوتية أو علامات جزء من الكلام (POS). نظرا لأن المعلومات اللغوية مهمة في معالجة اللغة الطبيعية (NLP)، فإن ASR المقترح مفيد بشكل خاص لتطبيقات واجهة الكلام، بما في ذلك أنظمة الحوار المنطوقة والترجمة الكلامية، والتي تجمع بين ASR و NLP. لإنتاج التعليقات التوضيحية اللغوية، ندرب نظام ASR باستخدام أهداف تدريبية معدلة: يتبع كل وحدة جرفية أو متعددة الجرافيم في النص المستهدف تسلسل صوت محاذاة و / أو علامة نقاط البيع. نظرا لأن طريقتنا قد تمكن من الوصول إلى البيانات الصوتية الأساسية، فيمكننا تقدير التعليقات التوضيحية اللغوية بشكل أكثر دقة من نهج خطوط الأنابيب التي يتم فيها تطبيق الأساليب القائم على NLP على نص ASR الفرضية. تظهر النتائج التجريبية على مجموعات البيانات اليابانية والإنجليزية أن نظام ASR المقترح قادر على إنتاج نسخ عالية الجودة في وقت واحد والشروح اللغوية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث