مجرر أن نقدم نمذجة اللغة المنطوقة الإندنية، ومهمة تعلم الخصائص الصوتية واللغوية للغة من الصوت الخام (لا توجد نص، لا ملصقات)، ومجموعة من المقاييس لتقييم التمثيلات المستفادة تلقائيا على المستويات الصوتية واللغوية لكلا الترميزوالجيل.أنشأنا أنظمة أساسية تتكون من تشفير خطاب منفصل (وحدات النص الزائفة العائدين)، وهي نموذج لغة تابعة له (تدرب على النص الزائف)، وحديد فك الكلام (توليد موجة موجلة من النص الزائف) جميعها مدربة دون إشراف والتحقق من صحةالمقاييس المقترحة مع التقييم البشري.عبر 3 تشفير الكلام (CPC، WAV2VEC 2.0، HUBERT)، نجد أن عدد الوحدات المنفصلة (50 أو 100 أو أو 200) مسائل في طريقة تعتمد على المهام والتشييد، وأن بعض المجموعات نهج النظم القائمة على النصوص.1.