أصبحت نماذج اللغة متعددة اللغات المحددة مسبقا أداة شائعة في تحويل قدرات NLP إلى لغات الموارد المنخفضة، وغالبا مع التعديلات.في هذا العمل، ندرس أداء، قابلية القابلية للضغط، والتفاعل بين اثنين من هذه التكيفات: تكبير المفردات وتروية النصوص.تقييماتنا حول العلامات بين الكلام، تحليل التبعية الشامل، والاعتراف الكياري المسمى في تسعة لغات متنوعة منخفضة الموارد تدعم صلاحية هذه الأساليب مع رفع أسئلة جديدة حول كيفية تكييف النماذج متعددة اللغات على النحو الأمثل إلى إعدادات الموارد المنخفضة.
Pretrained multilingual language models have become a common tool in transferring NLP capabilities to low-resource languages, often with adaptations. In this work, we study the performance, extensibility, and interaction of two such adaptations: vocabulary augmentation and script transliteration. Our evaluations on part-of-speech tagging, universal dependency parsing, and named entity recognition in nine diverse low-resource languages uphold the viability of these approaches while raising new questions around how to optimally adapt multilingual models to low-resource settings.
المراجع المستخدمة
https://aclanthology.org/
أصبحت نماذج اللغة متعددة اللغات المدربة مسبقا كتلة مبنى مهمة في معالجة اللغة الطبيعية متعددة اللغات.في الورقة الحالية، نحقق في مجموعة من هذه النماذج لمعرفة مدى نقل المعرفة على مستوى الخطاب عبر اللغات.يتم ذلك بتقييم منهجي على مجموعة أوسع من مهام مستوى
نقوم بتحليل ما إذا كانت نماذج اللغة الكبيرة قادرة على التنبؤ بأنماط سلوك القراءة البشرية.قارنا أداء نماذج محولات محول خاصة باللغات ومتعددة اللغات للتنبؤ بتدابير وقت القراءة التي تعكس معالجة الجملة البشرية الطبيعية على النصوص الهولندية والإنجليزية وال
تقوم هذه الدراسات الورقية بالتحويل عبر اللغات الصفرية إلى نماذج لغة الرؤية. على وجه التحديد، نركز على البحث عن نص متعدد اللغات والفيديو واقتراح نموذجا يستند إلى المحولات التي تتعلم أن تضمينات السياق متعددة اللغات متعددة اللغات. تحت إعداد طلقة صفرية،
أصبح التحويل التعلم بناء على نماذج لغة المحترفين على كمية كبيرة من البيانات الخام نموذجا جديدا للوصول إلى الأداء الحديث في NLP. ومع ذلك، لا يزال من غير الواضح كيف ينبغي تطبيق هذا النهج لغات غير مرئية غير مشمولة بأي نموذج لغوي متعدد اللغات واسعة ناتجا
دراسات مسبقة مجردة في النمذجة اللغوية متعددة اللغات (على سبيل المثال، كوتريل وآخرون، 2018؛ Mielke et al.، 2019) لا أوافق على ما إذا كانت مورفولوجيا الانهيار أو لا تجعل اللغات أكثر صعوبة في النموذج.نحاول حل الخلاف وتوسيع تلك الدراسات.نقوم بتجميع أكبر