ترغب بنشر مسار تعليمي؟ اضغط هنا

في آثار حجم المحولات على المعايرة داخل النطاق

On the Effects of Transformer Size on In- and Out-of-Domain Calibration

85   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نماذج لغة محول كبيرة مدربة مسبقا، والتي تكون منتشرة في مهام معالجة اللغة الطبيعية، تكون مكلفة للغاية للتدريب. لتقليل تكلفة التدريب هذه النماذج الكبيرة، طورت العمل السابق طرزا أصغر وأكثر ضغطا تحقق تسريعا كبيرا في وقت التدريب مع الحفاظ على دقة تنافسية للنموذج الأصلي على مهام المصب. على الرغم من أن هذه النماذج الصغيرة المدربة مسبقا تم اعتمادها على نطاق واسع من قبل المجتمع، إلا أنه ليس معروفا مدى جودة معايرة مقارنة بنظيراتهم الأكبر. في هذه الورقة، مع التركيز على مجموعة واسعة من المهام، يمكننا التحقيق بدقة في خصائص المعايرة للمحولات المدربين مسبقا، كدالة لحجمها. نوضح أنه عند تقييم النماذج داخل المجال، تكون النماذج الصغيرة قادرة على تحقيق معايرة تنافسية وغالبا ما تكون أفضل، مقارنة بالنماذج الكبيرة، مع تحقيق تسريع كبير في وقت التدريب. تقنيات المعايرة بعد المخصص تقلل من خطأ المعايرة لجميع النماذج في المجال. ومع ذلك، عند تقييم النماذج الكبيرة التي تم تقييمها، تميل النماذج الكبيرة إلى أن تكون معايرة أفضل، وتعويض التسمية بدلا من ذلك استراتيجية فعالة لمعايرة النماذج في هذا الإعداد.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نؤيد موضوع اتجاه الترجمة في البيانات المستخدمة لتدريب أنظمة الترجمة الآلية العصبية والتركيز على سيناريو في العالم الحقيقي مع اتجاه الترجمة المعروفة والاختلالات في اتجاه الترجمة: هانزارد الكندي.وفقا للمقاييس التلقائية ونحن نلاحظ أنه باستخدام البيانات الموازية التي تم إنتاجها في "اتجاه الترجمة" المطابقة (الهدف الأصيل والترجمة) يحسن جودة الترجمة.في حالات عدم توازن البيانات من حيث اتجاه الترجمة ونتجد أن وضع العلامات على اتجاه الترجمة يمكن إغلاق فجوة الأداء.نقوم بإجراء تقييم بشري يختلف قليلا عن المقاييس التلقائية، لكنه يؤكد ذلك على هذه البيانات الفرنسية الإنجليزية المعروفة لاحتواء ترجمات عالية الجودة ومصدر مختلط أصيل أو مختار على تحسين المصدر المرتبط بالترجمة للتدريب.
هدف البحث إلى تقدير أثر حجم العينة على قوة اختبار (t) لعينة واحدة، و لعينتين مترابطتين، و كذلك لعينتين مستقلتين، و على قوة اختبار تحليل التباين الأحادي (F) للمقارنة بين المتوسطات الحسابية. و قد تم استخدام المنهج الوصفي، و تم استخدام أحجام مختلفة م ن العينات ( 300 ) مشاىدة إحصائية، حيث تم توليدها باستخدام برنامج (PASS 14) و روعي أن تتحقق في هذه البيانات مجموعة الافتراضات اللازمة لاختباري (F) و (t) سواء فيما بتعلق بالاختيار العشوائي، مستوى القياس الفئوي، التوزيع الاعتدالي، تجانس التباين.
تحدث نماذج لغة متعددة اللغات بدقة مثيرة للإعجاب بدقة في العديد من اللغات في مهام معقدة مثل الاستدلال اللغوي الطبيعي (NLI).غالبا ما تتعلق أمثلة في المهام المعقدة المكافئة (وما يعادلها) أنواعا مختلفة من المهام الفرعية، والتي تتطلب أنواعا مختلفة من التف كير.لقد أثبتت أنواع معينة من التفكير أكثر صعوبة في التعلم في سياق أحادي الأونلينغ، وفي السياق crosslingual، قد تسليف الملاحظات المماثلة الضوء على كفاءة نقل صفرية ومختيار عينة قليلة.وبالتالي، للتحقيق في آثار أنواع المنطق في أداء النقل، نقترح مجموعة بيانات NLI متعددة اللغات متعددة الفئات ومناقشة التحديات اللازمة لتوسيع نطاق التعليقات التوضيحية أحادية الأونلينغ إلى لغات متعددة.نلاحظ إحصائيا تأثيرات مثيرة للاهتمام أن التقاء أنواع المنطق وأشابه لغة لها على أداء نقل.
تؤدي نماذج اللغة المدربة مسبقا بشكل جيد في مجموعة متنوعة من المهام اللغوية التي تتطلب منطق رمزي، مما رفع مسألة ما إذا كانت هذه النماذج تمثل ضمنيا الرموز والقواعد المجردة. نحن نحقق في هذا السؤال باستخدام دراسة حالة أداء بيرت على اتفاقية الفعل الإنجليز ي - الفعل. على عكس العمل السابق، ندرب حالات متعددة من بيرت من نقطة الصفر، مما يسمح لنا بإجراء سلسلة من التدخلات التي تسيطر عليها وقت ما قبل التدريب. نظرا لأن بيرت تعميم غالبا جيدا حتى تخضع أزواج الفعل التي لم تحدث أبدا في التدريب، مما يشير إلى درجة من السلوك الذي تحكم القواعد. ومع ذلك، نجد أيضا أن هذا الأداء يتأثر بشدة بتردد الكلمات، مع وجود تجارب تظهر أن كل من التردد المطلق لنموذج الفعل، وكذلك التردد بالنسبة إلى الانعطاف البديل، يتم تورطه سببابيا في تنبؤات Bert في وقت الاستدلال وبعد يكشف التحليل الأقرب من تأثيرات التردد هذه أن سلوك بيرت يتوافق مع النظام الذي يطبق بشكل صحيح قاعدة SVA بشكل عام ولكنه يكافح من أجل التغلب على بظر تدريب قوي وتقدير ميزات الاتفاقية (المفرد مقابل الجمع) على البنود المعجمية النادرة.
نماذج المحولات باهظة الثمن لحن النغمة، والبطيئة للتناسم، ولديها متطلبات تخزين كبيرة.تتناول النهج الحديثة هذه أوجه القصور عن طريق تدريب النماذج الأصغر، مما يقلل ديناميكيا حجم النموذج، وتدريب محولات الوزن الخفيف.في هذه الورقة، نقترح Adapterdrop، وإزالة محولات من طبقات محول أقل أثناء التدريب والاستدلال، مما يشتمل على المفاهيم من الاتجاهات الثلاثة.نظهر أن Adapterdrop يمكن أن تقلل ديناميكيا من العلامة الحسابية الحسابية عند إجراء الاستدلال على مهام متعددة في وقت واحد، مع انخفاض الحد الأدنى في عروض العمل.سنقوم بمزيد من المحولات من Adaperfusion، مما يحسن كفاءة الاستدلال مع الحفاظ على أداء العمل بالكامل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا