نقترح بشكل مسبق، مرحلة تعليمية واسعة النطاق على نطاق واسع بين نموذج اللغة قبل التدريب والضبط بشكل جيد.ما قبل التأثيرات المسبقة للتعلم متعدد المهام على نطاق واسع (حوالي 50 مجموعة من مجموعات البيانات، أكثر من 4.8 مليون أمثلة كاملة المسمى)، وهي مصممة لتشجيع تعلم التمثيلات التي تعمم بشكل أفضل للعديد من المهام المختلفة.نظظ أننا نتحسن باستمرار بشكل ثابت على تحسين الأداء من أجل التمييز المسبق (مثل روبرتا) ونماذج الجيل (مثل بارت) على مجموعة واسعة من المهام (تنبؤ الحكم، ومنطق العمولة، وما إلى ذلك)، مع تحسين كفاءة العينة بشكل كبير بشكل كبير أثناء غرامة-ضبط.نظهر أيضا أن المهام المتعدد واسع النطاق أمر بالغ الأهمية؛يمكن أن تؤذي ما قبل الاستخدام مسبقا الأداء عند استخدام عدد قليل من المهام حتى نقطة حرجة (عادة أعلى من 15) بعد أن يحسن الأداء خطيا في عدد المهام.
We propose pre-finetuning, an additional large-scale learning stage between language model pre-training and fine-tuning. Pre-finetuning is massively multi-task learning (around 50 datasets, over 4.8 million total labeled examples), and is designed to encourage learning of representations that generalize better to many different tasks. We show that pre-finetuning consistently improves performance for pretrained discriminators (e.g. RoBERTa) and generation models (e.g. BART) on a wide range of tasks (sentence prediction, commonsense reasoning, MRC, etc.), while also significantly improving sample efficiency during fine-tuning. We also show that large-scale multi-tasking is crucial; pre-finetuning can hurt performance when few tasks are used up until a critical point (usually above 15) after which performance improves linearly in the number of tasks.
المراجع المستخدمة
https://aclanthology.org/
مجردة لأنظمة معالجة اللغات الطبيعية، وهي نوعين من الأدلة تدعم استخدام تمثيلات نصية من نماذج اللغة العصبية المحددة "على الفوروريا غير المخلفات الكبيرة: الأداء على معايير مستوحاة من التطبيقات (بيترز وآخرون، 2018، في جملة أمور أخرى)، والظهور من التجريدا
أصبحت السيارات التلقائية النصية النصية (VAES) سيئة السمعة بالنسبة للانهيار الخلفي، وهي ظاهرة حيث يتعلم وحدة فك ترميز النموذج أن تجاهل الإشارات من التشفير.نظرا لأنه من المعروف أن الانهيار الخلفي يتم تفاقمه من خلال أجهزة فك ترميز التعبير، فقد شهدت المح
ندرس مشكلة جديدة في التعلم عبر التحويلات المتبادلة لحدث القرار (ECR) حيث يتم تكييف النماذج المدربة على البيانات من لغة مصدر للتقييمات باللغات المستهدفة المختلفة. نقدم النموذج الأساسي الأول لهذه المهمة بناء على نموذج لغة XLM-Roberta، وهو نموذج لغوي مت
نحن نبحث في التمثيلات التي تعلمناها عن طريق الرؤية ونماذج اللغة في المهام التي تتطلب التفكير العلائقي.مع التركيز على مشكلة تقييم الحجم النسبي للكائنات في السياقات البصرية مجردة، نحلل منطق واحد وخطوتين.بالنسبة لهذا الأخير، نبني مجموعة بيانات جديدة من
تصف هذه الورقة مساهمتنا في المهمة المشتركة Wassa 2021 بشأن التنبؤ بالمساءات وتصنيف العاطفة.كان الهدف الواسع لهذه المهمة هو نموذج درجة التعاطف، ونتيجة استغاثة والمستوى العام للعاطفة للمقال مكتوب استجابة لمقال الصحف المرتبطة بالأذى لشخص ما.لقد استخدمنا