عند التحجيم إلى مئات مليارات مليارات المعلمات، فإن نماذج اللغة المحددة مسبقا مثل GPT-3 (Brown et al.، 2020) تحقق أداءا ملحوظا قليلا.ومع ذلك، فإن كميات هائلة من الحساب مطلوبة للتدريب وتطبيق هذه النماذج الكبيرة، مما أدى إلى بصمة كبيرة على الكربون وجعل من الصعب على الباحثين والممارسين استخدامها.نظهر أنه يمكن الحصول على الأداء المشابه ل GPT-3 مع طرازات اللغة أكثر خضرة "" في أن عدد المعلمات لديهم عدة أوامر من الحجم أصغر.يتم تحقيق ذلك من خلال تحويل المدخلات النصية إلى أسئلة كتين تحتوي على وصف مهمة، جنبا إلى جنب مع التحسين المستندة إلى التدرج؛إن استغلال البيانات غير المسبقة يمنح تحسينات إضافية.نحدد العوامل الرئيسية المطلوبة لفهم اللغة الطبيعية الناجحة مع نماذج لغة صغيرة.