تحسين مصنف إشراف لمشكلة تحديد اللغة الصعبة


الملخص بالعربية

توضح هذه الورقة النظام الذي طورته STATITATIAIRE D'Analyze StatistIck Des Tyses لتحديد الهوية الحالية (DLI) المهمة المشتركة لعام 2021. هذه المهمة صعبة للغاية لأن المواد تتكون من تعليقات YouTube قصيرة، مكتوبة في البرنامج النصي الروماني، من ثلاثةلغات Dravidian ذات الصلة ارتباطا وثيقا، وفئة رابعة تتكون من العديد من اللغات الأخرى في أبعاد متفاوتة، كلها مختلطة مع اللغة الإنجليزية.يتكون النظام المقترح من نموذج الانحدار اللوجستي الذي يستخدمه كلما يتميز فقط N-Grams من الشخصيات بحد أقصى طول 5. بعد تحسينها من حيث ترجيح الميزة ومعلمات المصنف، فهو المرتبة الأولى في التحدي.تقوم التحليلات الإضافية التي أجريت تسطير أهمية التحسين، خاصة عندما يكون مقياس الفعالية هو الماكرو F1.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث