تعد أنظمة التعرف السمعية البصرية التي تعتمد على صوت و حركة شفاه المتكلم من أهم أنظمة التعرف على الكلام. و قد تم تطوير العديد من التقنيات المختلفة من حيث الطرائق المستخدمة في استخراج السمات و طرائق التصنيف. يقترح البحث إنشاء نظام للتعرف على الكلمات المعزولة بالاعتماد السمات السمعية المستخرجة من فيديوهات منطوقة لكلمات باللغة العربية في بيئة خالية من الضجيج، و من ثم إضافة مكون الطاقة و المشتقات التفاضلية في مرحلة استخراج السمات لخوارزمية معاملات تردد الميل.