على دور ترتيب Corpus في نمذجة اللغة


الملخص بالعربية

يتم استخدام نماذج اللغة المحددة على كورسا شاسعة للنص غير منظم باستخدام إطار التعلم الذاتي للإشراف في العديد من فهم اللغة الطبيعية ومهام الجيل. تشير العديد من الدراسات إلى أن الاستحواذ على اللغة في البشر يتبع نمطا بسيطا مهيكيا ومجهدا بهذا الحدس، وتعلم المناهج الدراسية، مما يتيح تدريب النماذج الحسابية في ترتيب مغزى، مثل معالجة العينات السهلة قبل الصعب، وقد عرضت للحد من وقت التدريب المحتمل. لا يزال السؤال ما إذا كان يمكن لمعرفة المناهج الدراسية أن تستفيد من نماذج اللغة. في هذا العمل، نقوم بإجراء تجارب شاملة تنطوي على استراتيجيات مناهج متعددة تختلف معايير التعقيد وجداول التدريب. النتائج التجريبية لتدريب نماذج لغة المحولات على الإنجليزي كوربوس وتقييمها جوهريا وكذلك بعد التقليل من ثمانية مهام من معيار الغراء، تظهر مكاسب تحسن متسقة حول تدريب الفانيليا التقليدي. ومن المثير للاهتمام، في تجاربنا، عند تقييمها على عصر واحد، أفضل نموذج في أعقاب المناهج الدراسية ذات المستوى الثابت على مستوى المستند، تتفوق على نموذج الفانيليا بنسبة 1.7 نقطة (متوسط ​​درجة الغراء) ويستغرق نموذج الفانيليا ضعف العديد من خطوات التدريب للوصول إلى أداء مماثل.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث