\ 'ufal في multilexnorm 2021: تحسين التطبيع المعجمي متعدد اللغات بواسطة BYT5


الملخص بالعربية

نقدم الدخول الفائز إلى مهمة مشتركة من التطبيع المعجمي متعدد اللغات (Multilexnorm) في W-Nut 2021 (Van Der Goot et al.، 2021A)، والتي تقيم أنظمة التطبيع المعجمي في 12 مجموعة بيانات وسائل التواصل الاجتماعي في 11 لغة.نقوم بتأسيس حلنا على نموذج لغة بايت مدروس مسبقا، BYT5 (Xue et al.، 2021A)، والتي ندرجها مسبقا على البيانات الاصطناعية ثم تناغم بشكل جيد على بيانات التطبيع الأصيل.يحقق نظامنا أفضل أداء بهامش واسع في التقييم الجوهري، وأيضا أفضل أداء في التقييم الخارجي من خلال تحليل التبعية.يتم إصدار شفرة المصدر في https://github.com/ufal/multilexnorm2021 والنماذج الدقيقة في https://huggingface.co/ufal.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث