يشكل التعرف التلقائي للأصويات مشكلة صعبة لتطبيقات NLP. في حين أن المتحدثين الأصليين يمكنهم التعامل بشكل حدسي مع تعبيرات متعددة الكلمات التي من الصعب تتبع معاني الكلمات التي تعود معانيها التركيبية إلى دلالات الكلمة الفردية، لا يزال هناك نطاق واسع لتحسين الأساليب الحسابية. نحن نفترض أن الإنشاءات الاصطلاحية يمكن أن تتم بها شدة تدريجية من عدم التركيز الدلالي، والتحددات الرسمية، وسياق استخدام غير عادي، وإدخال عدد من التدابير اللازمة لهذه الخصائص، وتتألف تدابير تجميع قائمة على العد والتنبؤية مع تدابير السياق (الأمم المتحدة )تشابه. نحن نقيم نهجنا على معيار الذهب المسمى يدويا، مشتقة من كائن من كلمات البوب الألمانية. تحقيقا لهذه الغاية، نطبق مصنف غابات عشوائي لتحليل المساهمة الفردية للميزات للكشف عن التعابير تلقائيا، ودراسة المفاضلة بين الاستدعاء والدقة. أخيرا، نقوم بتقييم المصنف في مجموعة بيانات مستقلة من التعابير المستخرجة من قائمة التعابير في ويكيبيديا، وتحقيق الدقة الحديثة.