التدريب التكميلي على مهام البيانات المتوسطة الواسعة (المقابلة) هي تقنية مطبقة على نطاق واسع، والتي تلتزم أولا نماذج اللغة المحددة مسبقا في مهمة وسيطة من قبل على المهمة المستهدفة المهم.في حين أن الطفولة قادرة على تحسين أداء نماذج اللغة المحددة مسبقا، فلا تزال غير واضحة لماذا وعندما يعمل.تبين الأبحاث السابقة أن هذه المهام الوسيطة التي تنطوي على استنتاج معقد، مثل التفكير المنطقي، والعمل بشكل جيد بشكل جيد لروبرتا كبير.في هذه الورقة، نكتشف أن التحسن من المهمة المتوسطة يمكن أن يكون متعامدا له يحتوي على التفكير أو غيرها من المهارات المعقدة --- يمكن له مهمة تمييزية مزيفة حقيقية مزيفة من قبل GPT2 يمكن أن تستفيد مهام مستهدفة متنوعة.نقوم بإجراء تجارب مكثفة لدراسة تأثير العوامل المختلفة على الطفولة.تشير هذه النتائج إلى إعادة التفكير في دور الصقل الدقيق المتوسطة في خط أنابيب المقابلة.
Supplementary Training on Intermediate Labeled-data Tasks (STILT) is a widely applied technique, which first fine-tunes the pretrained language models on an intermediate task before on the target task of interest. While STILT is able to further improve the performance of pretrained language models, it is still unclear why and when it works. Previous research shows that those intermediate tasks involving complex inference, such as commonsense reasoning, work especially well for RoBERTa-large. In this paper, we discover that the improvement from an intermediate task could be orthogonal to it containing reasoning or other complex skills --- a simple real-fake discrimination task synthesized by GPT2 can benefit diverse target tasks. We conduct extensive experiments to study the impact of different factors on STILT. These findings suggest rethinking the role of intermediate fine-tuning in the STILT pipeline.
المراجع المستخدمة
https://aclanthology.org/
يحقق النماذج المحددة ذات الأهداف الإشراف ذاتية الإشراف على النصوص الكبيرة على تحقيق أداء حديثة على مهام تلخيص النص الإنجليزية. ومع ذلك، فإن هذه النماذج عادة ما يتم ضبطها على مئات الآلاف من نقاط البيانات، ومتطلبات غير قابلة للتنفيذ عند تطبيق تلخيص لمج
تحسنت نماذج اللغة المدربة مسبقا للمحولات بشكل كبير أداء مختلف مهام معالجة اللغة الطبيعية (NLP) في السنوات الأخيرة. في حين أن هذه النماذج فعالة وسائدة، فإن هذه النماذج عادة ما تكون كبيرة كبيرة لسيناريوهات النشر المحدودة للمورد. وهكذا تعمل مؤشر ترابط ا
نقدم DynaBench، وهي منصة مفتوحة المصدر لإنشاء مجموعة البيانات الديناميكية ومعيار النموذج.يعمل Dynabench في متصفح ويب ويدعم إنشاء DataSet Indictet من الإنسان والنموذج في الحلقة: يسعى المحلقون إلى إنشاء أمثلة سيتطلب من النموذج المستهدف، لكن شخص آخر لن
المحولات هي شبكة عصبية مقرها الانتباه، والتي تتكون من اثنين من المواد الغذائية، وهي شبكة انتباه الذات (SAN) وشبكة الأعلاف إلى الأمام (FFN). يستكشف البحوث الحالية لتعزيز اثنين من الطبقة الفرعية بشكل منفصل لتحسين القدرة على محول تمثيل النص. في هذه الور
تثبت نماذج اللغة القائمة على المحولات (LMS) على مجموعات نصية كبيرة تخزين ثروة من المعرفة الدلالية. ومع ذلك، 1) أنها ليست فعالة كوسميز الجملة عند استخدامها خارج الرف، و 2) وبالتالي لا تتأخر عادة وراء إعادة احتجازها بشكل تقريبي (E.G.، عبر اختيار الاستج