حققت نماذج تمثيل اللغة المدربة مؤخرا مثل بيرت وروبرتا نتائج مهمة في مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP)، ومع ذلك، فإنها تتطلب تكلفة حسابية عالية للغاية.يعد تعلم المناهج الدراسية (CL) أحد الحلول المحتملة لتخفيف هذه المشكلة.CL هي استراتيجية تدريبية حيث يتم إعطاء عينات التدريب للنماذج بأمر هادف بدلا من أخذ العينات العشوائية.في هذا العمل، نقترح طريقة CL جديدة تدريجيا، مما يزيد تدريجيا من حجم نص المدخلات لتدريب آلية الانتباه الذاتي في بيرت ومتغيراته باستخدام الحد الأقصى للحجم الدفعة المتوفرة.تظهر التجارب في إعدادات الموارد المنخفضة أن نهجنا يفوق أن يؤدي إلى خط الأساس من حيث سرعة التقارب والأداء النهائي على مهام المصب.
Recently, pre-trained language representation models such as BERT and RoBERTa have achieved significant results in a wide range of natural language processing (NLP) tasks, however, it requires extremely high computational cost. Curriculum Learning (CL) is one of the potential solutions to alleviate this problem. CL is a training strategy where training samples are given to models in a meaningful order instead of random sampling. In this work, we propose a new CL method which gradually increases the block-size of input text for training the self-attention mechanism of BERT and its variants using the maximum available batch-size. Experiments in low-resource settings show that our approach outperforms the baseline in terms of convergence speed and final performance on downstream tasks.
المراجع المستخدمة
https://aclanthology.org/
تحقق هذه الورقة وتكشف عن العلاقة بين اثنين من التخصصات المتعلقة بآلات التعلم عن كثب، وهي التعلم النشط (AL) وتعلم المناهج الدراسية (CL)، من عدسة العديد من المناهج الرواية.تقدم هذه الورقة أيضا التعلم المناهج الدراسية النشطة (ACL) الذي يحسن AL من خلال ا
تظهر الأبحاث الحديثة أن النماذج المدربة مسبقا (PTMS) مفيدة تجزئة الكلمات الصينية (CWS).ومع ذلك، فإن PTMS المستخدمة في الأعمال السابقة عادة ما تعتمد نمذجة اللغة كامرأة تدريبية مسبقا، تفتقر إلى معرفة تجزئة مسبقة خاصة بمهام المهام وتجاهل التناقض بين مها
يتركز البحث على تطوير الخوارزمية IDEA و ذلك بإضافة طبقات جديدة إليها معتمدة على BBM
و ذلك للحصول على خوارزمية مطورة بثلاث مفاتيح و كتلة دخل معطيات.
في هذا العمل، نركز على سيناريو عددا أقل تحديا للكشف عن قلة الرصاص حيث يكون العديد من النوايا المحبوسة بشكل جيد ومشبه بشكل صحيح.نقدم مخطط اكتشاف عديدي بسيطة ولكنه فعالة من القلة عبر التدريب المسبق والضبط الناعم الصنع.على وجه التحديد، نقوم أولا بإجراء
نحن نتطلع إلى تحدي التركيب المقدم من مؤشر المسح.باستخدام تكبير البيانات وتعديل هندسة SEQ2SEQ القياسية مع الاهتمام، نحقق نتائج SOTA على جميع المهام ذات الصلة من المعيار، وإظهار أن النماذج يمكن أن تعميم الكلمات المستخدمة في السياقات غير المرئية.نقترح ا