نربط النماذج العصبية للتحليل المورفولوجي والجيل والليمون للغات الغنية بالمورفولوجيا.نقدم طريقة لاستخراج كمية كبيرة من البيانات التدريبية تلقائيا من FSTS لمدة 22 لغة، منها 17 مليار بالانقراض.تتبع النماذج العصبية نفس التشريع مثل FSTS من أجل تحقيقها لأنظمة الاحتياطية مع FSTS.تم إصدار التعليمات البرمجية المصدر والنماذج والشطونات على Zenodo.
We train neural models for morphological analysis, generation and lemmatization for morphologically rich languages. We present a method for automatically extracting substantially large amount of training data from FSTs for 22 languages, out of which 17 are endangered. The neural models follow the same tagset as the FSTs in order to make it possible to use them as fallback systems together with the FSTs. The source code, models and datasets have been released on Zenodo.
المراجع المستخدمة
https://aclanthology.org/
تصف هذه الورقة تقديمنا إلى المهمة المشتركة Semeval-2021 بشأن تنبؤ التعقيد المعجمي.اتصلنا بمثابة مشكلة في الانحدار وتقديم مجموعة فرقة تجمع بين أربعة أنظمة، واحدة مقرها ومميزة مقرها وثلاثة عصبي مع التعلم الدقيق والتردد المسبق والتعلم متعدد المهام، وتحق
مع ظهور Advent of Store argeddings، زادت الاهتمام تجاه نهج التصنيف العصبي لاسترجاع المعلومات بشكل كبير. ومع ذلك، ظلت جائبتان مهمان إلى حد كبير: I) عادة ما تتكون الاستعلامات من عدد قليل من الكلمات الرئيسية فقط، مما يزيد من الغموض ويجعل سياقه أكثر صعوب
تصنيف النص هو أداة مركزية في NLP. ومع ذلك، عندما ترتبط الفصول المستهدفة بشدة مع السمات النصية الأخرى، يمكن أن تلتقط نماذج تصنيف النصوص "ميزات" خاطئة، مما يؤدي إلى التعميم والتحيزات السيئة. في تحليل وسائل التواصل الاجتماعي، هذه المشكلة أسطح فئات المست
أصبح التحويل التعلم بناء على نماذج لغة المحترفين على كمية كبيرة من البيانات الخام نموذجا جديدا للوصول إلى الأداء الحديث في NLP. ومع ذلك، لا يزال من غير الواضح كيف ينبغي تطبيق هذا النهج لغات غير مرئية غير مشمولة بأي نموذج لغوي متعدد اللغات واسعة ناتجا
من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من الم