أصبحت نماذج لغة كبيرة من الصعب تدريبا على نحو متزايد بسبب وقت الحسبان المتزايد والتكلفة.في هذا العمل، نقدم SRU ++، وهي عبارة عن بنية عالية الكفاءة تجمع بين تكرار سريع واهتمام لنمذجة التسلسل.SRU ++ يعرض قدرة النمذجة القوية وكفاءة التدريب.فيما يتعلق بمهام نمذجة اللغة القياسية مثل مجموعات بيانات ENWIK8 و Wiki-103 و Mount Word Word، يحصل نموذجنا على أجزاء أفضل لكل حرف وحيرة أثناء استخدام تكلفة التدريب الأقل بنسبة 3x-10x مقارنة بنماذج المحولات ذات الأداء الأعلى.على سبيل المثال، يحقق نموذجنا نتيجة حديثة لمجموعة بيانات Enwik8 باستخدام 1.6 أيام من التدريب على آلة 8 GPU.نوضح كذلك أن SRU ++ يتطلب الحد الأدنى من الاهتمام بالقرب من الأداء القريب من الحديث.تشير نتائجنا إلى الاستفادة بشكل مشترك تكرار سريع مع القليل من الاهتمام باعتباره اتجاها واعدا لتسريع التدريب النموذجي والاستدلال.
Large language models have become increasingly difficult to train because of the growing computation time and cost. In this work, we present SRU++, a highly-efficient architecture that combines fast recurrence and attention for sequence modeling. SRU++ exhibits strong modeling capacity and training efficiency. On standard language modeling tasks such as Enwik8, Wiki-103 and Billion Word datasets, our model obtains better bits-per-character and perplexity while using 3x-10x less training cost compared to top-performing Transformer models. For instance, our model achieves a state-of-the-art result on the Enwik8 dataset using 1.6 days of training on an 8-GPU machine. We further demonstrate that SRU++ requires minimal attention for near state-of-the-art performance. Our results suggest jointly leveraging fast recurrence with little attention as a promising direction for accelerating model training and inference.
المراجع المستخدمة
https://aclanthology.org/
أشار العمل السابق إلى أن النماذج اللغوية المحددة مسبقا (MLMS) غير فعالة مثل تشفير المعجمات المعجمية والجملة العالمية خارج الرف، أي دون مزيد من ضبط الدقيقة بشكل جيد على NLI أو تشابه الجملة أو إعادة الصياغة المهام باستخدام بيانات المهام المشروحة وبعد ف
الإعلان عن التجارة الإلكترونية ومواقع وسائل التواصل الاجتماعي تقدم انطباعات إعلانية على نطاق الويب بقيمة قيادة يومية لكل من المتسوقين والمعلنين.يتطلب هذا المقياس طرقا برنامجية للكشف عن محتوى غير مناسب في الإعلانات لحماية تجربة العملاء والثقة.يركز هذه
يتطلب إجابة السؤال المستندة إلى السيناريو (SQA) على استرداد وقراءة الفقرات من كوربوس كبيرة للإجابة على سؤال محكوم بموجب وصف سيناريو طويل.نظرا لأن السيناريو يحتوي على كلا القصاصات الاسترجاع والكثير من الضوضاء، فإن استرجاع SQA صعب للغاية.علاوة على ذلك،
أصبح التحويل التعلم بناء على نماذج لغة المحترفين على كمية كبيرة من البيانات الخام نموذجا جديدا للوصول إلى الأداء الحديث في NLP. ومع ذلك، لا يزال من غير الواضح كيف ينبغي تطبيق هذا النهج لغات غير مرئية غير مشمولة بأي نموذج لغوي متعدد اللغات واسعة ناتجا
أصبحت نماذج لغة كبيرة مسببة الاحترام باستخدام بنية الشبكة العصبية المحولات هي منهجية مهيمنة للعديد من مهام معالجة اللغة الطبيعية، مثل الإجابة على الأسئلة، تصنيف النص، غموض معنى الكلمة، إكمال النص والترجمة الآلية. عادة ما تضم مئات الملايين من المعلم