تجميع اللغة للاعتراف الكيثي المسمى متعدد اللغات


الملخص بالعربية

أظهر العمل الحديث في معالجة اللغة الطبيعية متعددة اللغات تقدما في مهام مختلفة مثل الاستدلال اللغوي الطبيعي والترجمة المشتركة متعددة اللغات. على الرغم من النجاح في تعلم العديد من اللغات، تنشأ التحديات حيث غالبا ما تعزز أنظمة التدريب المتعدد اللغات الأداء على بعض اللغات على حساب الآخرين. بالنسبة للاعتراف الكوكي المسمى متعدد اللغات (NER)، نقترح تقنية بسيطة تفرق لغات مماثلة من خلال استخدام Agddings من نموذج لغة ملثم مسبقا مسبقا، واكتشاف مجموعات اللغة تلقائيا في مساحة التضمين هذه. على وجه التحديد، نحن نغلق نموذج XLM-Roberta بمهمة تحديد اللغة، واستخدام المدينات من هذا النموذج للتجميع. نقوم بإجراء تجارب في 15 لغة متنوعة في مجموعة بيانات ويكيانز وتظهر تقنياتنا إلى حد كبير ثلاثة خطوط الأساس: (1) تدريب نموذج متعدد اللغات بالاشتراك على جميع اللغات المتاحة، (2) تدريب طراز أحادي لكل لغة، و (3) لغات تجميع لغات الأسرة اللغوية. نقوم أيضا بإجراء التحليلات التي تظهر تحويلا مهدا متعدد اللغات لغات الموارد المنخفضة (Swahili و Yoruba)، على الرغم من تجمعها تلقائيا مع لغات أخرى متباينة على ما يبدو.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث