تعمل العديد من نماذج NLP على تسلسل الرموز الرموز الفرعية التي تنتجها قواعد التزخم المصنوعة يدويا وخوارزميات التعريفي للكلمة الفرعية.بديل عالمي بسيط هو تمثيل كل نص محوسب كسلسلة من البايتات عبر UTF-8، وضبط الحاجة إلى طبقة تضمين نظرا لأن هناك عدد أقل من أنواع الرمز المميز (256) من الأبعاد.من المستغرب، استبدال طبقة التضمين في كل مكان بتمثيلات ساخنة لكل بايت لا تؤذي الأداء؛تظهر التجارب في الترجمة الآلية بايت إلى بايت من الإنجليزية إلى 10 لغات مختلفة تحسنا ثابتا في بلو، ومستوى الطابع المتنافس وحتى نماذج مستوى الكلمات الفرعية القياسية.يكشف التحقيق الأعمق أن مزيج من نماذج تضمينه مع ترميز مفاتيح المدخلات بمبالغ الرمز إلى التسرب الرمزي، والذي يفيد نماذج بايت إلى بايت بشكل خاص.