نماذج اللغة العصبية عادة ما تقوم بإدخال نص إدخال في وحدات فرعية لتحقيق مفردات مفتوحة. يتمثل النهج القياسي في استخدام التزعزيات الكنسي واحد في كل من القطار ووقت الاختبار. نقترح أن هذا النهج غير مرضي وقد يؤدي إلى اختناق تقييمنا لأداء نموذج اللغة. يتجاهل استخدام أفضل التزامات واحدا فقط عدم اليقين Tokeniser على التزامات البديلة، والتي قد تؤذي أداء نموذج خارج النطاق. في هذه الورقة، نجادل بأنه بدلا من ذلك، يجب تقييم نماذج اللغة على احتمال حدوثها الهامشي من التصعيش. قارن المقدرين المختلفة للحياة الهامشية بناء على أخذ العينات، وإظهار أنه من الممكن تقدير الاحتمال الهامشي لعدد يمكن التحكم فيه من العينات. ثم قمنا بتقييم نموذج لغة محدود مسبقا على كل من أفضل التزامات الواحدة والحيرة الهامشية، وإظهار أن الحيرة الهامشية يمكن أن تكون أفضل بكثير من الأفضل، خاصة على البيانات خارج المجال. نحن نربط هذا الاختلاف في الحيرة إلى عدم اليقين Tokeniser كما تقاس بواسطة Tokeniser Entropy. نناقش بعض الآثار المترتبة على نتائجنا لتدريب وتقييم نموذج اللغة، لا سيما فيما يتعلق بتروكيات القمامة.