تحسين نموذج اللغة المعروفة للطابع النموذجي عن طريق الاحتفاظ بمثابة تشفير الأحرف تحت هندسة Skip-Gram


الملخص بالعربية

يمكن أن نطاقات اللغة العصبية التي تدركها القبض على العلاقة بين الكلمات من خلال استغلال معلومات مستوى الطابع وهي فعالة بشكل خاص للغات مع التشكل الغني.ومع ذلك، عادة ما تكون هذه النماذج متحيزة باتجاه المعلومات من أشكال السطح.لتخفيف هذه المشكلة، نقترح طريقة بسيطة وفعالة لتحسين نموذج اللغة العصبي على الحرف من خلال إجبار ترميز الأحرف لإنتاج شرائح قائمة على الكلمات تحت بنية Skip-Gram في خطوة الاحماء دون بيانات تدريب إضافية.نظرا لإيبربريكيا أن نموذج اللغة العصبي الإدراك على الطابع الناتج يحقق تحسينات واضحة لدرجات الحيرة على لغات متنوعة من النطبية، والتي تحتوي على العديد من الكلمات منخفضة التردد أو غير المرئي.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث