multilexnorm: مهمة مشتركة على التطبيع المعجمي متعدد اللغات


الملخص بالعربية

التطبيع المعجمي هو مهمة تحويل الكلام في شكلها الموحد. هذه المهمة مفيدة لتحليل المصب، لأنها توفر طريقة للتنسيق (غالبا ما تكون عفوية) تباين لغوي. مثل هذا الاختلاف هو نموذجي للوسائط الاجتماعية التي تتم مشاركة المعلومات في العديد من الطرق، بما في ذلك اللغات المختلفة وتحويل التعليمات البرمجية. منذ عمل Han و Baldwin (2011) منذ عقد من الزمان، اجتذبت التطبيع المعجمي الانتباه باللغة الإنجليزية وعلا بلغات أخرى. ومع ذلك، هناك نقص في وجود معيار مشترك للمقارنة بين النظم عبر اللغات مع إعداد بيانات وتقييم متجانسة. تحدد المهمة المشتركة متعددة الأكسجين لملء هذه الفجوة. نحن نقدم أكبر مؤشر تطبيع متعدد اللغات المتوفرة للجمهور بما في ذلك 13 متغيرات لغة. نقترح إعداد تقييم متجانس مع كل من التقييم الجوهري والخارجي. كما التقييم الخارجي، نستخدم تحليل التبعية ووضع علامات على جزء من مقاييس التقييم القضائية (A-LAS، A-UAS، و A-POS) لحساب التناقضات المحاذاة. جذبت المهمة المشتركة التي استضافتها في W-Nut 2021 9 مشاركا و 18 رسالة. تظهر النتائج أن أنظمة التطبيع العصبي تتفوق على النظام السابق على النظام السابق بهامش كبير. يتأثر أداء وضع العلامات على وضع العلامات في المصب وعلامات جزء من الكلام بشكل إيجابي ولكن بدرجات متفاوتة، مع تحسينات تصل إلى 1.72 A-LAS و 0.85 A-UAS و 1.54 A-POS للنظام الفائز.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث