نماذج لغة محول كبيرة مدربة مسبقا، والتي تكون منتشرة في مهام معالجة اللغة الطبيعية، تكون مكلفة للغاية للتدريب. لتقليل تكلفة التدريب هذه النماذج الكبيرة، طورت العمل السابق طرزا أصغر وأكثر ضغطا تحقق تسريعا كبيرا في وقت التدريب مع الحفاظ على دقة تنافسية للنموذج الأصلي على مهام المصب. على الرغم من أن هذه النماذج الصغيرة المدربة مسبقا تم اعتمادها على نطاق واسع من قبل المجتمع، إلا أنه ليس معروفا مدى جودة معايرة مقارنة بنظيراتهم الأكبر. في هذه الورقة، مع التركيز على مجموعة واسعة من المهام، يمكننا التحقيق بدقة في خصائص المعايرة للمحولات المدربين مسبقا، كدالة لحجمها. نوضح أنه عند تقييم النماذج داخل المجال، تكون النماذج الصغيرة قادرة على تحقيق معايرة تنافسية وغالبا ما تكون أفضل، مقارنة بالنماذج الكبيرة، مع تحقيق تسريع كبير في وقت التدريب. تقنيات المعايرة بعد المخصص تقلل من خطأ المعايرة لجميع النماذج في المجال. ومع ذلك، عند تقييم النماذج الكبيرة التي تم تقييمها، تميل النماذج الكبيرة إلى أن تكون معايرة أفضل، وتعويض التسمية بدلا من ذلك استراتيجية فعالة لمعايرة النماذج في هذا الإعداد.
Large, pre-trained transformer language models, which are pervasive in natural language processing tasks, are notoriously expensive to train. To reduce the cost of training such large models, prior work has developed smaller, more compact models which achieves a significant speedup in training time while maintaining competitive accuracy to the original model on downstream tasks. Though these smaller pre-trained models have been widely adopted by the community, it is not known how well are they calibrated compared to their larger counterparts. In this paper, focusing on a wide range of tasks, we thoroughly investigate the calibration properties of pre-trained transformers, as a function of their size. We demonstrate that when evaluated in-domain, smaller models are able to achieve competitive, and often better, calibration compared to larger models, while achieving significant speedup in training time. Post-hoc calibration techniques further reduce calibration error for all models in-domain. However, when evaluated out-of-domain, larger models tend to be better calibrated, and label-smoothing instead is an effective strategy to calibrate models in this setting.
المراجع المستخدمة
https://aclanthology.org/
نؤيد موضوع اتجاه الترجمة في البيانات المستخدمة لتدريب أنظمة الترجمة الآلية العصبية والتركيز على سيناريو في العالم الحقيقي مع اتجاه الترجمة المعروفة والاختلالات في اتجاه الترجمة: هانزارد الكندي.وفقا للمقاييس التلقائية ونحن نلاحظ أنه باستخدام البيانات
هدف البحث إلى تقدير أثر حجم العينة على قوة اختبار (t) لعينة واحدة، و لعينتين
مترابطتين، و كذلك لعينتين مستقلتين، و على قوة اختبار تحليل التباين الأحادي (F)
للمقارنة بين المتوسطات الحسابية. و قد تم استخدام المنهج الوصفي، و تم استخدام أحجام
مختلفة م
تحدث نماذج لغة متعددة اللغات بدقة مثيرة للإعجاب بدقة في العديد من اللغات في مهام معقدة مثل الاستدلال اللغوي الطبيعي (NLI).غالبا ما تتعلق أمثلة في المهام المعقدة المكافئة (وما يعادلها) أنواعا مختلفة من المهام الفرعية، والتي تتطلب أنواعا مختلفة من التف
تؤدي نماذج اللغة المدربة مسبقا بشكل جيد في مجموعة متنوعة من المهام اللغوية التي تتطلب منطق رمزي، مما رفع مسألة ما إذا كانت هذه النماذج تمثل ضمنيا الرموز والقواعد المجردة. نحن نحقق في هذا السؤال باستخدام دراسة حالة أداء بيرت على اتفاقية الفعل الإنجليز
نماذج المحولات باهظة الثمن لحن النغمة، والبطيئة للتناسم، ولديها متطلبات تخزين كبيرة.تتناول النهج الحديثة هذه أوجه القصور عن طريق تدريب النماذج الأصغر، مما يقلل ديناميكيا حجم النموذج، وتدريب محولات الوزن الخفيف.في هذه الورقة، نقترح Adapterdrop، وإزالة