التدريب نماذج لغة كبيرة يمكن أن تستهلك كمية كبيرة من الطاقة.نفترض أن تكوين نموذج اللغة يؤثر على استهلاكها في مجال الطاقة، وأن هناك مجالا لتحسين استهلاك الطاقة في نماذج اللغة الكبيرة الحديثة.للتحقيق في هذه المطالبات، نقدم عامل استهلاك الطاقة في الوظيفة الموضوعية، واستكشاف مجموعة النماذج وتكوينات HyperParameter التي تؤثر على الطاقة.نحدد عوامل تكوين متعددة يمكن أن تقلل من استهلاك الطاقة أثناء التدريب على نموذج اللغة مع الحفاظ على جودة النموذج.
Training large language models can consume a large amount of energy. We hypothesize that the language model's configuration impacts its energy consumption, and that there is room for power consumption optimisation in modern large language models. To investigate these claims, we introduce a power consumption factor to the objective function, and explore the range of models and hyperparameter configurations that affect power. We identify multiple configuration factors that can reduce power consumption during language model training while retaining model quality.
المراجع المستخدمة
https://aclanthology.org/
أصبحت التمثيل التعلم للنص عبر الاحتمالات نموذج لغة على كوربوس كبيرة أصبح نقطة انطلاق قياسية لبناء أنظمة NLP. يقف هذا النهج على النقيض من السيارات الآلية، كما تم تدريبه على النص الخام، ولكن بهدف التعلم لترميز كل إدخال كجاغر يتيح إعادة الإعمار الكامل.
نقدم العمل الجاري لتقييم، لمعرفتنا، أول نموذج لغز إذن كبير تم تدريبه على التحدث باللغة السويدية، باستخدام البيانات من Flashback من مناقشة النقاش عبر الإنترنت.نقوم بإجراء دراسة تجريبية للتقييم البشري تشير إلى أن النموذج غالبا ما يكون في الغالب من الاس
يعد الكشف عن الموقف على Twitter تحديا بشكل خاص بسبب الطول القصير لكل سقسقة، والتعايش المستمر لمصطلحات جديدة وعلاج التصنيف، وانحراف هيكل الجملة من النثر القياسي.تم عرض نماذج لغة ذات ضبطها باستخدام بيانات داخل المجال على نطاق واسع لتكون الحالة الجديدة
بالنسبة لأي موقع على شبكة الإنترنت للتجارة الإلكترونية، فهذا مشكلة غير خيالية تبني الإعلانات الدائمة التي تجذب المتسوقين.من الصعب اجتياز شريط الجودة الإبداعي للموقع، خاصة على نطاق واسع.وبالتالي نقترح حل برنامجي لتوليد عناوين إعلانات المنتج باستخدام م
غالبا ما يتم استخدام مخصصات Dirichlet الكامنة (LDA)، وهو نموذج موضوع يستخدم على نطاق واسع كأداة أساسية لتحليل النص في التطبيقات المختلفة. ومع ذلك، فإن عملية التدريب لنموذج LDA عادة ما تتطلب بيانات كوربوس نصية ضخمة. من ناحية، قد تعرض هذه البيانات الضخ