ترغب بنشر مسار تعليمي؟ اضغط هنا

أصبحت نماذج لغة كبيرة من الصعب تدريبا على نحو متزايد بسبب وقت الحسبان المتزايد والتكلفة.في هذا العمل، نقدم SRU ++، وهي عبارة عن بنية عالية الكفاءة تجمع بين تكرار سريع واهتمام لنمذجة التسلسل.SRU ++ يعرض قدرة النمذجة القوية وكفاءة التدريب.فيما يتعلق بم هام نمذجة اللغة القياسية مثل مجموعات بيانات ENWIK8 و Wiki-103 و Mount Word Word، يحصل نموذجنا على أجزاء أفضل لكل حرف وحيرة أثناء استخدام تكلفة التدريب الأقل بنسبة 3x-10x مقارنة بنماذج المحولات ذات الأداء الأعلى.على سبيل المثال، يحقق نموذجنا نتيجة حديثة لمجموعة بيانات Enwik8 باستخدام 1.6 أيام من التدريب على آلة 8 GPU.نوضح كذلك أن SRU ++ يتطلب الحد الأدنى من الاهتمام بالقرب من الأداء القريب من الحديث.تشير نتائجنا إلى الاستفادة بشكل مشترك تكرار سريع مع القليل من الاهتمام باعتباره اتجاها واعدا لتسريع التدريب النموذجي والاستدلال.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا