يمكن أن نطاقات اللغة العصبية التي تدركها القبض على العلاقة بين الكلمات من خلال استغلال معلومات مستوى الطابع وهي فعالة بشكل خاص للغات مع التشكل الغني.ومع ذلك، عادة ما تكون هذه النماذج متحيزة باتجاه المعلومات من أشكال السطح.لتخفيف هذه المشكلة، نقترح طريقة بسيطة وفعالة لتحسين نموذج اللغة العصبي على الحرف من خلال إجبار ترميز الأحرف لإنتاج شرائح قائمة على الكلمات تحت بنية Skip-Gram في خطوة الاحماء دون بيانات تدريب إضافية.نظرا لإيبربريكيا أن نموذج اللغة العصبي الإدراك على الطابع الناتج يحقق تحسينات واضحة لدرجات الحيرة على لغات متنوعة من النطبية، والتي تحتوي على العديد من الكلمات منخفضة التردد أو غير المرئي.
Character-aware neural language models can capture the relationship between words by exploiting character-level information and are particularly effective for languages with rich morphology. However, these models are usually biased towards information from surface forms. To alleviate this problem, we propose a simple and effective method to improve a character-aware neural language model by forcing a character encoder to produce word-based embeddings under Skip-gram architecture in a warm-up step without extra training data. We empirically show that the resulting character-aware neural language model achieves obvious improvements of perplexity scores on typologically diverse languages, that contain many low-frequency or unseen words.
المراجع المستخدمة
https://aclanthology.org/
تم إثبات التحسينات الأخيرة المثيرة للإعجاب في NLP، على أساس نجاح نماذج اللغة العصبية السياقية، في معظمها على معظم زوجين من اللغات عالية الموارد. بناء لغة البناء، وبشكل أعم، لا تزال أنظمة NLP للغات غير الموحدة والموارد منخفضة مهمة صعبة. في هذا العمل،
تسهل المعلومات اللغوية الخشنة، مثل الكيانات أو العبارات المسماة، التعلم التمثيل بشكل كاف في التدريب المسبق. تعمل السابقة بشكل أساسي على توسيع هدف نمذجة لغة بيرت الملثمين (MLM) من إخفاء الرموز الفردية إلى تسلسلات متجاورة من الرموز N. نقول أن هذه الطري
وصف النظم التي طورها مجلس البحوث القومي كندا للمهمة المشتركة لتحديد اللغة اليوراليك في حملة التقييم الفاديم 2021.قمنا بتقييم طريقتين مختلفتين لهذه المهمة: مصنف احتمالية استغلال حرف 5 غرامات فقط كميزات، وشبكة عصبية قائمة على الطابع مدربة مسبقا من خلال
كشف الجانب هو مهمة أساسية في التعدين في الرأي.تستخدم الأشغال السابقة كلمات البذور إما كعظمون من نماذج الموضوع، كمراسين لتوجيه تعلم الجوانب، أو كميزات من صفوف الأنفاق.تقدم هذه الورقة طريقة رواية متشرفة ضعيفة لاستغلال كلمات البذور للكشف عن الجانب بناء
تستكشف هذه الورقة استمرار القصة التي يحركها الشخصية، حيث تظهر القصة من خلال سرد الشخصيات الأول والثاني بالإضافة إلى الحوار - - - - تتطلب النماذج لتحديد اللغة التي تتفق مع شخصيات الشخصية وعلاقاتها مع أحرف أخرى التالية وتقدم القصة. نحن نفترض أن نموذج م