ترغب بنشر مسار تعليمي؟ اضغط هنا

عند الاهتمام يلتقي تكرار سريع: نماذج لغة التدريب مع حساب تقليل

When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute

252   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أصبحت نماذج لغة كبيرة من الصعب تدريبا على نحو متزايد بسبب وقت الحسبان المتزايد والتكلفة.في هذا العمل، نقدم SRU ++، وهي عبارة عن بنية عالية الكفاءة تجمع بين تكرار سريع واهتمام لنمذجة التسلسل.SRU ++ يعرض قدرة النمذجة القوية وكفاءة التدريب.فيما يتعلق بمهام نمذجة اللغة القياسية مثل مجموعات بيانات ENWIK8 و Wiki-103 و Mount Word Word، يحصل نموذجنا على أجزاء أفضل لكل حرف وحيرة أثناء استخدام تكلفة التدريب الأقل بنسبة 3x-10x مقارنة بنماذج المحولات ذات الأداء الأعلى.على سبيل المثال، يحقق نموذجنا نتيجة حديثة لمجموعة بيانات Enwik8 باستخدام 1.6 أيام من التدريب على آلة 8 GPU.نوضح كذلك أن SRU ++ يتطلب الحد الأدنى من الاهتمام بالقرب من الأداء القريب من الحديث.تشير نتائجنا إلى الاستفادة بشكل مشترك تكرار سريع مع القليل من الاهتمام باعتباره اتجاها واعدا لتسريع التدريب النموذجي والاستدلال.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أشار العمل السابق إلى أن النماذج اللغوية المحددة مسبقا (MLMS) غير فعالة مثل تشفير المعجمات المعجمية والجملة العالمية خارج الرف، أي دون مزيد من ضبط الدقيقة بشكل جيد على NLI أو تشابه الجملة أو إعادة الصياغة المهام باستخدام بيانات المهام المشروحة وبعد ف ي هذا العمل، نوضح أنه من الممكن تحويل MLMS إلى تشفير معجمية وقضية فعالة حتى دون أي بيانات إضافية، والاعتماد ببساطة على الإشراف الذاتي. نقترح تقنية تعليمية بسيطة للغاية وسريعة وفعالة وفعالة، وتسمى برت مرآة، والتي تحول MLMS (على سبيل المثال، بيرت وروبرتا) إلى مثل هذه اللوائح في 20-30 ثانية مع عدم وجود إمكانية الوصول إلى المعرفة الخارجية الإضافية. تعتمد Mirror-Bert على أزواج سلسلة متطابقة وعزز قليلا كأمثلة إيجابية (I.E.، مرادف)، وتهدف إلى زيادة تشابهها أثناء ضبط الهوية ". نبلغ عن مكاسب ضخمة أكثر من MLMS Off-Relf مع Mirror-Bert كل من المستوى المعجمي والمهام على مستوى الجملة، عبر المجالات المختلفة ولغات مختلفة. وخاصة، في مشابه الجملة (STS) ومهام إستقبال الإجابة عن السؤال (QNLI)، فإن نموذجنا المرآة الإشراف على نفسه يطابق أداء نماذج Bertence-Bert من العمل السابق الذي يعتمد على بيانات المهام المشروح. أخيرا، نقوم بتحويل أعمق في الأعمال الداخلية لل MLMS، واقترح بعض الأدلة على سبب قيام هذا النهج بسيطة بسيطة بالمرآبة الرصيد بإعادة ترميز اللوائح المعجمية والعامة العامة الفعالة.
الإعلان عن التجارة الإلكترونية ومواقع وسائل التواصل الاجتماعي تقدم انطباعات إعلانية على نطاق الويب بقيمة قيادة يومية لكل من المتسوقين والمعلنين.يتطلب هذا المقياس طرقا برنامجية للكشف عن محتوى غير مناسب في الإعلانات لحماية تجربة العملاء والثقة.يركز هذه الورق على تقنيات تدريب نماذج تصنيف النص بموجب قيود الموارد، بنيت كجزء من الحلول الآلية للاعتدال محتوى الإعلان.نظير على مدى ضعف الإشراف، يمكن تطبيق تعلم المناهج الدراسية والتدريب متعدد اللغات بفعالية على Tune-Tune Bert ومتغيراته لمهام تصنيف النص بالاقتران مع مختلف استراتيجيات تكبير البيانات.تبين تجاربنا الواسعة لغات متعددة أن هذه التقنيات تكتشف فئات الإعلانات العدائية مع مكاسب كبيرة في الدقة في عتبة استدعاء عالية فوق الأساس.
يتطلب إجابة السؤال المستندة إلى السيناريو (SQA) على استرداد وقراءة الفقرات من كوربوس كبيرة للإجابة على سؤال محكوم بموجب وصف سيناريو طويل.نظرا لأن السيناريو يحتوي على كلا القصاصات الاسترجاع والكثير من الضوضاء، فإن استرجاع SQA صعب للغاية.علاوة على ذلك، بالكاد يمكن أن يشرف عليه بسبب عدم وجود ملصقات ذات صلة من الفقرات ل SQA.لتلبية التحدي، في هذه الورقة نقترح نموذج قارئ مسترجع مشترك يسمى Jeeves حيث يتم الإشراف على المسترد الضمني فقط باستخدام ملصقات ضمان الجودة عبر آلية ترجيح كلمة جديدة.يتفوق Jeeves بشكل كبير على مجموعة متنوعة من خطوط الأساس القوية على أسئلة متعددة الخيارات في ثلاث مجموعات بيانات SQA.
أصبح التحويل التعلم بناء على نماذج لغة المحترفين على كمية كبيرة من البيانات الخام نموذجا جديدا للوصول إلى الأداء الحديث في NLP. ومع ذلك، لا يزال من غير الواضح كيف ينبغي تطبيق هذا النهج لغات غير مرئية غير مشمولة بأي نموذج لغوي متعدد اللغات واسعة ناتجا ، والذي يتم توفير كمية صغيرة فقط من البيانات الخام فقط. في هذا العمل، من خلال مقارنة النماذج متعددة اللغات وأنتغوية، نوضح أن هذه النماذج تتصرف بطرق متعددة على اللغات غير المرئية. تستفيد بعض اللغات بشكل كبير من تعلم التعلم والتصرف بالمثل إلى لغات موارد عالية مرتبطة ارتباطا وثيقا في حين أن الآخرين على ما يبدو لا. التركيز على الأخير، نظرا لأن هذا الفشل في النقل يرتبط إلى حد كبير بتأثير البرنامج النصي المستخدم لكتابة هذه اللغات. نظهر أن ترجمة هذه اللغات تعمل بشكل كبير على تحسين إمكانات نماذج اللغة متعددة اللغات على نطاق واسع في مهام المصب. توفر هذه النتيجة اتجاها واعدا نحو جعل هذه النماذج متعددة اللغات بشكل كبير مفيدة لمجموعة جديدة من اللغات غير المرئية.
أصبحت نماذج لغة كبيرة مسببة الاحترام باستخدام بنية الشبكة العصبية المحولات هي منهجية مهيمنة للعديد من مهام معالجة اللغة الطبيعية، مثل الإجابة على الأسئلة، تصنيف النص، غموض معنى الكلمة، إكمال النص والترجمة الآلية. عادة ما تضم ​​مئات الملايين من المعلم ات، فإن هذه النماذج تقدم أداء حديثة، ولكن على حساب قابلية الترجمة الشفوية. آلية الاهتمام هي العنصر الرئيسي لشبكات المحولات. نقوم بتقديم Attviz، وهي طريقة لاستكشاف اهتمام الذات في شبكات المحولات، والتي يمكن أن تساعد في تفسير وتصحيح الأخطاء من النماذج المدربة من خلال إظهار الجمعيات بين الرموز النصية في تسلسل الإدخال. نظهر أن خطوط أنابيب التعلم العميق الحالية يمكن استكشافها مع Attviz، والذي يوفر تصورات رواية لرؤوس الانتباه وتجميعها. نفذنا الأساليب المقترحة في مجموعة أدوات عبر الإنترنت ومكتبة دون اتصال. باستخدام أمثلة من تحليل الأخبار، نوضح كيف يمكن استخدام ATVIZ للتفتيش والحدوث على فهم أفضل ما تعلمه النموذج.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا