NPVEC1: Word Embeddings للنيبالية - البناء والتقييم


الملخص بالعربية

كلمة تضمين خرائط الكلمات إلى ناقلات الأرقام الحقيقية.وهي مشتقة من كوربوس كبيرة ومن المعروف أنها تلتقط المعرفة الدلالية من الجثة.يعد Word Embedding مكونا حاسما للعديد من أساليب التعلم العميق الحديثة.ومع ذلك، فإن إنشاء Word Good Legeddings هو تحدي خاص لغات الموارد المنخفضة مثل النيبالية بسبب عدم توفر كوربوس نص كبير.في هذه الورقة، نقدم NPVEC1 والتي تتألف من 25 كلمة نيبالية من النيبالية التي اشتوعناها من كوربوس كبيرة باستخدام القفازات و Word2VEC و FastText و Bert.ونحن نقدم كذلك التقييمات الجوهرية والخارجية لهذه الأشرطة باستخدام مقاييس وأساليب راسخة.يتم تدريب هذه النماذج باستخدام الرموز 279 مليون كلمة وهي أكبر embeddings مدربة على الإطلاق للغة النيبالية.علاوة على ذلك، لقد جعلنا هذه الأشرطة المتاحة للجمهور لتسريع تطوير طلبات معالجة اللغة الطبيعية (NLP) في النيبالية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث