على الرغم من نجاحهم، فإن نماذج اللغة الحديثة هشة.حتى التغييرات الصغيرة في خط أنابيب التدريب يمكن أن تؤدي إلى نتائج غير متوقعة.ندرس هذه الظاهرة من خلال فحص متانة ألبرت (LAN et al.، 2020) بالاشتراك مع متوسط وزن الأسكاستك (SWA) --- طريقة رخيصة للكمية --- على مهمة تحليل المعنويات (SST-2).على وجه الخصوص، نقوم بتحليل استقرار SWA من خلال معايير قائمة مرجعية (Ribeiro et al.، 2020)، فحص اتفاقية الأخطاء التي تصنعها النماذج المختلفة فقط في بذورها العشوائية.نحن نفترض أن SWA أكثر استقرارا لأنها تقع على فرق اللقطات النموذجية التي اتخذت على طول مسار نزول التدرج.نحن نحدد الاستقرار من خلال مقارنة أخطاء النماذج مع Fleiss 'Kappa (Fleiss و 1971) وتتداخل درجات النسبة.نجد أن SWA تقلل من معدلات الخطأ بشكل عام؛ومع ذلك، لا تزال النماذج تعاني من تحيزاتها المميزة (وفقا لقائمة مرجعية).