تخصيص قدرة مفردات كبيرة لطراز اللغة عبر اللغات قبل التدريب


الملخص بالعربية

بالمقارنة مع نماذج أحادية الأجل، تتطلب النماذج عبر اللغات عادة مفردات أكثر تعبيرية لتمثيل جميع اللغات بشكل كاف.نجد أن العديد من اللغات ممثلة تمثيلا ناقصا في نماذج اللغات الصليب الأخيرة بسبب قدرة المفردات المحدودة.تحقيقا لهذه الغاية، نقترح خوارزمية VOCAP لتحديد سعة المفردات المطلوبة لكل لغة.ومع ذلك، فإن زيادة حجم المفردات يبطئ بشكل كبير بسرعة ما قبل التدريب.من أجل معالجة المشكلات، نقترح أخذ العينات المستهدفة المستهدفة K-NN لتسريع SoftMax باهظة الثمن.تبين تجاربنا أن المفردات المتعددة اللغات المستفادة مع فوائد VOCAP نموذج اللغة المتبادلة قبل التدريب مسبقا.علاوة على ذلك، فإن أخذ العينات المستهدفة المستندة إلى K-NN تخفف الآثار الجانبية لزيادة حجم المفردات مع تحقيق أداء مماثل وسرعة ما قبل التدريب الأسرع.الرمز والمفردات متعددة اللغات المحددة متوفرة في https://github.com/bozheng-hit/vocapxlm.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث