ترغب بنشر مسار تعليمي؟ اضغط هنا

قبل التدريب برت مع التعلم من المناهج الدراسية عن طريق زيادة حجم كتلة المدخلات

Pre-training a BERT with Curriculum Learning by Increasing Block-Size of Input Text

347   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

حققت نماذج تمثيل اللغة المدربة مؤخرا مثل بيرت وروبرتا نتائج مهمة في مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP)، ومع ذلك، فإنها تتطلب تكلفة حسابية عالية للغاية.يعد تعلم المناهج الدراسية (CL) أحد الحلول المحتملة لتخفيف هذه المشكلة.CL هي استراتيجية تدريبية حيث يتم إعطاء عينات التدريب للنماذج بأمر هادف بدلا من أخذ العينات العشوائية.في هذا العمل، نقترح طريقة CL جديدة تدريجيا، مما يزيد تدريجيا من حجم نص المدخلات لتدريب آلية الانتباه الذاتي في بيرت ومتغيراته باستخدام الحد الأقصى للحجم الدفعة المتوفرة.تظهر التجارب في إعدادات الموارد المنخفضة أن نهجنا يفوق أن يؤدي إلى خط الأساس من حيث سرعة التقارب والأداء النهائي على مهام المصب.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحقق هذه الورقة وتكشف عن العلاقة بين اثنين من التخصصات المتعلقة بآلات التعلم عن كثب، وهي التعلم النشط (AL) وتعلم المناهج الدراسية (CL)، من عدسة العديد من المناهج الرواية.تقدم هذه الورقة أيضا التعلم المناهج الدراسية النشطة (ACL) الذي يحسن AL من خلال ا لجمع بين آل مع CL للاستفادة من الطبيعة الديناميكية لمفهوم المعلومات وكذلك الأفكار البشرية المستخدمة في تصميم الاستدلال المناهج الدراسية.تعرض مقارنة أداء ACL و AL على مجموعة بيانات عامين لمهمة التعرف على الكيان المسماة (NER) فعالية الجمع بين آل و CL باستخدام إطار عملنا المقترح.
تظهر الأبحاث الحديثة أن النماذج المدربة مسبقا (PTMS) مفيدة تجزئة الكلمات الصينية (CWS).ومع ذلك، فإن PTMS المستخدمة في الأعمال السابقة عادة ما تعتمد نمذجة اللغة كامرأة تدريبية مسبقا، تفتقر إلى معرفة تجزئة مسبقة خاصة بمهام المهام وتجاهل التناقض بين مها م ما قبل التدريب ومهام CWS المصب.في هذه الورقة، نقترح MetASE مطلقا مدربا مسبقا مسبقا CWS، والذي توظف هندسة موحدة ويشمل خوارزمية التعلم المعتوية في مهمة ما قبل التدريب متعدد المعايير.تظهر النتائج التجريبية أن METASEG يمكن أن تستخدم معرفة تجزئة مسبقة مشتركة من المعايير الحالية المختلفة وتخفيف التناقض بين النماذج المدربة مسبقا ومهام CWS المصب.علاوة على ذلك، يمكن أن يحقق MetASEG أداء جديدا على أحدث بيانات CWS المستخدمة على نطاق واسع وتحسين أداء النموذج بشكل كبير في إعدادات الموارد المنخفضة.
يتركز البحث على تطوير الخوارزمية IDEA و ذلك بإضافة طبقات جديدة إليها معتمدة على BBM و ذلك للحصول على خوارزمية مطورة بثلاث مفاتيح و كتلة دخل معطيات.
في هذا العمل، نركز على سيناريو عددا أقل تحديا للكشف عن قلة الرصاص حيث يكون العديد من النوايا المحبوسة بشكل جيد ومشبه بشكل صحيح.نقدم مخطط اكتشاف عديدي بسيطة ولكنه فعالة من القلة عبر التدريب المسبق والضبط الناعم الصنع.على وجه التحديد، نقوم أولا بإجراء تدريبات مسبقة من الناحية التي تم إشرافها ذاتيا على مجموعات بيانات النية التي تم جمعها، والتي تتعلم ضمنيا التمييز بين الكلام المماثلة الدلوية دون استخدام أي ملصقات.ثم نقوم بعد ذلك بإجراء اكتشاف عهد القليل من الرصاص مع التعلم البسيط المشروع، والذي يسحب صراحة النطق من نفس النية أقرب ويغطي الكلام عبر النوايا المختلفة أبعد.تظهر النتائج التجريبية أن أسلوبنا المقترح يحقق أداء حديثة على ثلاثة مجموعات بيانات للكشف عن النوايا الصعبة تحت 5 لقطة و 10 لقطة.
نحن نتطلع إلى تحدي التركيب المقدم من مؤشر المسح.باستخدام تكبير البيانات وتعديل هندسة SEQ2SEQ القياسية مع الاهتمام، نحقق نتائج SOTA على جميع المهام ذات الصلة من المعيار، وإظهار أن النماذج يمكن أن تعميم الكلمات المستخدمة في السياقات غير المرئية.نقترح ا متدادا للمعيار من خلال مهمة أصعب، والتي لا يمكن حلها بالطريقة المقترحة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا