في حين أن التعرف التلقائي على الكلام قد أظهر عرضة لهجمات الخصومة، فإن الدفاعات ضد هذه الهجمات لا تزال متأخرة.يمكن كسر الدفاعات الحالية والساذجة جزئيا مع هجوم على التكيف.في مهام التصنيف، تبين أن نموذج التجانس العشوائي فعال في النماذج الدفاعية.ومع ذلك، من الصعب تطبيق هذه النموذج لمهام ASR، بسبب تعقيدها والطبيعة المتسلسلة لمخرجاتها.تتغلب الورق لدينا على بعض هذه التحديات من خلال الاستفادة من الأدوات الخاصة بالكلام مثل التحسين والتصويت Rover لتصميم نموذج ASR قوي للقلق.نحن نطبق الإصدارات التكيفية من الهجمات الحديثة، مثل هجوم ASR غير المحدد، ونموذجنا، وإظهار أن أقوى دفاعنا هو قوي لجميع الهجمات التي تستخدم الضوضاء غير المسموعة، ولا يمكن كسرها إلا مع تشويه كبير للغايةوبعد
While Automatic Speech Recognition has been shown to be vulnerable to adversarial attacks, defenses against these attacks are still lagging. Existing, naive defenses can be partially broken with an adaptive attack. In classification tasks, the Randomized Smoothing paradigm has been shown to be effective at defending models. However, it is difficult to apply this paradigm to ASR tasks, due to their complexity and the sequential nature of their outputs. Our paper overcomes some of these challenges by leveraging speech-specific tools like enhancement and ROVER voting to design an ASR model that is robust to perturbations. We apply adaptive versions of state-of-the-art attacks, such as the Imperceptible ASR attack, to our model, and show that our strongest defense is robust to all attacks that use inaudible noise, and can only be broken with very high distortion.
المراجع المستخدمة
https://aclanthology.org/
تقوم أنظمة الترجمة التقليدية المدربين على وثائق مكتوبة بشكل جيد للترجمة المستندة إلى النصوص ولكن ليس كذلك للتطبيقات المستندة إلى الكلام.نحن نهدف إلى تكييف نماذج الترجمة إلى الكلام عن طريق إدخال أخطاء معجمية حقيقية من أخطاء ASR والتجزئة من علامات التر
أصبح توحيد التعلم الصوتي واللغوي أمرا مهما بشكل متزايد بنقل المعرفة المستفادة بشأن وفرة بيانات لغة الموارد عالية الموارد للحصول على التعرف على الكلام المنخفض الموارد. الأساليب الحالية ببساطة تتالي النماذج الصوتية واللغة المدربة مسبقا لتعلم النقل من ا
تهدف أنظمة تعرف الكلام أليا بشكل عام إلى كتابة ما يقال. تتالف أنظمة تعرف الكلام المستمر آليا في أحدث ما توصل إليه العلم في هذا المجال من أربع مكونات أساسية: معالجة الإشارة، النمذجة الصوتية, النمذجة اللغوية، ومحرك البحث. أما تعرف الكلمات المنفصلة فلا
نظرا للتقدم المؤخرا لمعالجة اللغات الطبيعية، قامت عدة أعمال بتطبيق نموذج اللغة الملثم المدرب مسبقا (MLM) من Bert إلى ما بعد تصحيح التعرف على الكلام.ومع ذلك، فإن النماذج القائمة المدربة مسبقا فقط تنظر فقط في التصحيح الدلالي أثناء إهمال السمات الصوتية
بسبب شعبية خدمات مساعد الحوار الذكي، أصبح التعرف على عاطفي الكلام أكثر وأكثر أهمية.في التواصل بين البشر والآلات، يمكن للتعرف على العاطفة وتحليل العاطفة تعزيز التفاعل بين الآلات والبشر.تستخدم هذه الدراسة نموذج CNN + LSTM لتنفيذ معالجة العاطفة الكلام (