اكتسبت النماذج المستندة إلى المحولات شعبية متزايدة تحقق الأداء الحديث في العديد من مجالات البحث بما في ذلك ترجمة الكلام. ومع ذلك، فإن التعقيد التربيعي للمحول فيما يتعلق بديل تسلسل الإدخال يمنع اعتماده كما هو الحال مع إشارات صوتية، والتي تمثل عادة بالتسلسلات الطويلة. اللجوء الحلول الحالية إلى ضغط أساسي أساسي على أساس أخذ العينات الثابتة لميزات الصوت الخام. لذلك، فإن المعلومات اللغوية المفيدة المحتملة غير قابلة للوصول إلى طبقات أعلى مستوى في الهندسة المعمارية. لحل هذه المشكلة، نقترح الكلمة، وهي عبارة عن بنية، بفضل انخفاض استخدام الذاكرة في طبقات الاهتمام، وتجنب ضغط المخلفات الأولية والمعلومات المجامعة فقط على مستوى أعلى وفقا لمعايير لغوية أكثر استنارة. تظهر التجارب على ثلاث أزواج اللغات (en → de / es / nl) فعالية حلنا، مع مكاسب تصل إلى 0.8 بلو على Corpus القياسية يجب أن تكون ميديا وعلى ما يصل إلى 4.0 بلو في سيناريو منخفض الموارد.