ترغب بنشر مسار تعليمي؟ اضغط هنا

أصبح توحيد التعلم الصوتي واللغوي أمرا مهما بشكل متزايد بنقل المعرفة المستفادة بشأن وفرة بيانات لغة الموارد عالية الموارد للحصول على التعرف على الكلام المنخفض الموارد. الأساليب الحالية ببساطة تتالي النماذج الصوتية واللغة المدربة مسبقا لتعلم النقل من ا لكلام إلى النص. ومع ذلك، فإن كيفية حل تناقض التمثيل في الكلام والنص غير مستكشفة، مما يعيق استخدام المعلومات الصوتية واللغوية. علاوة على ذلك، يعمل الأمر السابق ببساطة استبدال طبقة تضمين نموذج اللغة المدربة مسبقا مع الميزات الصوتية، والتي قد تتسبب في مشكلة نسيان الكارثي. في هذا العمل، نقدم WAV-Bert، وهي طريقة تعليمية تعاونية وصوتية وممثلة على الصمامات والاستفادة من المعلومات السياقية من الكلام والنص. على وجه التحديد، نقوم بتحديد نموذج صوت صوتي مدرب مسبقا (WAV2VEC 2.0) ونموذج لغة (Bert) في إطار قابل للتدريب من طرف إلى نهاية. تم تصميم وحدة تجميع التمثيل لتجميع التمثيل الصوتي واللغوي، ويتم تقديم وحدة الانتباه التضمين لإدماج المعلومات الصوتية في بيرت، والتي يمكن أن تسهل بفعالية تعاون نماذج مدربة مسبقا وبالتالي تعزيز تعلم التمثيل. تشير التجارب الواسعة إلى أن لدينا WAV-Bert تنفأ بشكل كبير على النهج الحالية وتحقيق الأداء الحديث في التعرف على الكلام المنخفض الموارد.
في حين أن التعرف التلقائي على الكلام قد أظهر عرضة لهجمات الخصومة، فإن الدفاعات ضد هذه الهجمات لا تزال متأخرة.يمكن كسر الدفاعات الحالية والساذجة جزئيا مع هجوم على التكيف.في مهام التصنيف، تبين أن نموذج التجانس العشوائي فعال في النماذج الدفاعية.ومع ذلك، من الصعب تطبيق هذه النموذج لمهام ASR، بسبب تعقيدها والطبيعة المتسلسلة لمخرجاتها.تتغلب الورق لدينا على بعض هذه التحديات من خلال الاستفادة من الأدوات الخاصة بالكلام مثل التحسين والتصويت Rover لتصميم نموذج ASR قوي للقلق.نحن نطبق الإصدارات التكيفية من الهجمات الحديثة، مثل هجوم ASR غير المحدد، ونموذجنا، وإظهار أن أقوى دفاعنا هو قوي لجميع الهجمات التي تستخدم الضوضاء غير المسموعة، ولا يمكن كسرها إلا مع تشويه كبير للغايةوبعد
نظرا للتقدم المؤخرا لمعالجة اللغات الطبيعية، قامت عدة أعمال بتطبيق نموذج اللغة الملثم المدرب مسبقا (MLM) من Bert إلى ما بعد تصحيح التعرف على الكلام.ومع ذلك، فإن النماذج القائمة المدربة مسبقا فقط تنظر فقط في التصحيح الدلالي أثناء إهمال السمات الصوتية للكلمات.سوف يؤدي الإصلاح الدلالي الوحيد فقط إلى تقليل الأداء لأن الأخطاء هوموفونية شائعة إلى حد ما في الصيني العسكري.في هذه الورقة، اقترحنا نهجا جديدا لاستغلال التمثيل السياقي بشكل جماعي والمعلومات الصوتية بين الخطأ واستبدال المرشحين لتخفيف معدل الخطأ الصيني العسكري.أظهرت نتائج تجربتنا على مجموعات بيانات التعرف على الكلام العالمي الحقيقي أن طريقةنا المقترحة لها من الواضح أن خفضت من النموذج الأساسي، مما استخدم برت مزاملا مدربا مسبقا كصاصر.
توضح هذه المذكرة إرسال NTR-TSU المهمة المشتركة SIGTYP 2021 بشأن التنبؤ معرفات اللغة من الكلام.تعد تحديد اللغة المنطوقة (غطاء) خطوة مهمة في خط أنابيب نظام التعرف الآلي متعدد اللغات (ASR).بالنسبة للعديد من اللغات المنخفضة واللغات المهددة بالانقراض، قد تكون التسجيلات المفردة المفردة فقط متاحة، مطالبة بالحاجة إلى أنظمة معرف اللغة للمجال ومكبر الصوت.في هذه المذكرة، نوضح أن الشبكة العصبية التنافسية مع طبقة تجمع ذاتي اليقظة تظهر نتائج واعدة لمهمة تحديد اللغة.
تهدف أنظمة تعرف الكلام أليا بشكل عام إلى كتابة ما يقال. تتالف أنظمة تعرف الكلام المستمر آليا في أحدث ما توصل إليه العلم في هذا المجال من أربع مكونات أساسية: معالجة الإشارة، النمذجة الصوتية, النمذجة اللغوية، ومحرك البحث. أما تعرف الكلمات المنفصلة فلا يحتوي على النمذجة اللغوية. التي تقوم بربط الكلمات لتشكيل جملة مفهومة.
تعد أنظمة التعرف السمعية البصرية التي تعتمد على صوت و حركة شفاه المتكلم من أهم أنظمة التعرف على الكلام. و قد تم تطوير العديد من التقنيات المختلفة من حيث الطرائق المستخدمة في استخراج السمات و طرائق التصنيف. يقترح البحث إنشاء نظام للتعرف على الكلمات المعزولة بالاعتماد السمات السمعية المستخرجة من فيديوهات منطوقة لكلمات باللغة العربية في بيئة خالية من الضجيج، و من ثم إضافة مكون الطاقة و المشتقات التفاضلية في مرحلة استخراج السمات لخوارزمية معاملات تردد الميل.
تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة التي دخلت بقوة في مجالات الحياة المختلفة سواء الطبية أو الأمنية أو الصناعية. و بناءً عليه تم تطوير العديد من الأنظمة المعتمدة على طرق مختلفة في استخلاص السمات و التصنيف. في هذا البحث تم إنشاء ثلاث ة أنظمة للتعرف على الكلام، تختلف عن بعضها البعض بالطرق المستخدمة في مرحلة استخلاص السمات، حيث استخدم النظام الأول خوارزمية MFCC بينما استخدم النظام الثاني خوارزمية LPCC أما النظام الثالث فاستخدم خوارزمية PLP. تشترك هذه الأنظمة بطريقة التصنيف حيث استخدمت خوارزمية الـHMM كمصنف. في البداية تم دراسة و تقييم أداء عملية التعرف على الكلام للأنظمة الثلاثة السابقة المقترحة منفردةً. بعد ذلك تم تطبيق خوارزمية الجمع على كل زوج من الأنظمة المدروسة و ذلك لدراسة أثر خوارزمية الجمع في تحسين التعرف على الكلام. تم اعتماد نوعين من الأخطاء، الأخطاء التزامنية (simultaneous errors) و الأخطاء الاعتمادية ((dependent errors، كوحدة مقارنة لدراسة فعالية خوارزمية الجمع في تحسين أداء عملية التعرف على الكلام. يتبين من نتائج المقارنة أن أفضل نسبة تعرف على الكلام تم الحصول عليها في حالة جمع الخوارزميتان MFCC و PLP حيث تم الحصول على معدل تعرف 93.4%.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا