توضح هذه الورقة النظام الذي طورته STATITATIAIRE D'Analyze StatistIck Des Tyses لتحديد الهوية الحالية (DLI) المهمة المشتركة لعام 2021. هذه المهمة صعبة للغاية لأن المواد تتكون من تعليقات YouTube قصيرة، مكتوبة في البرنامج النصي الروماني، من ثلاثةلغات Dravidian ذات الصلة ارتباطا وثيقا، وفئة رابعة تتكون من العديد من اللغات الأخرى في أبعاد متفاوتة، كلها مختلطة مع اللغة الإنجليزية.يتكون النظام المقترح من نموذج الانحدار اللوجستي الذي يستخدمه كلما يتميز فقط N-Grams من الشخصيات بحد أقصى طول 5. بعد تحسينها من حيث ترجيح الميزة ومعلمات المصنف، فهو المرتبة الأولى في التحدي.تقوم التحليلات الإضافية التي أجريت تسطير أهمية التحسين، خاصة عندما يكون مقياس الفعالية هو الماكرو F1.
This paper describes the system developed by the Laboratoire d'analyse statistique des textes for the Dravidian Language Identification (DLI) shared task of VarDial 2021. This task is particularly difficult because the materials consists of short YouTube comments, written in Roman script, from three closely related Dravidian languages, and a fourth category consisting of several other languages in varying proportions, all mixed with English. The proposed system is made up of a logistic regression model which uses as only features n-grams of characters with a maximum length of 5. After its optimization both in terms of the feature weighting and the classifier parameters, it ranked first in the challenge. The additional analyses carried out underline the importance of optimization, especially when the measure of effectiveness is the Macro-F1.
المراجع المستخدمة
https://aclanthology.org/
تقدم هذه الورقة تقنية لتحديد فتحات المشارك في عقود اللغة الإنجليزية.من خلال الإلهام من تقنيات استخراج فتحة غير مدفوعة غير المنشورة، يستخدم النظام المعروض هنا نهجا مختلفا لتحديد المصطلحات المستخدمة للإشارة إلى فتحة خاصة بالهيئة في العقود الجديدة.نقوم
تجزئة خطاب وقطع الخطاب على مستوى الجملة تلعب أدوارا مهمة لمختلف مهام NLP للنظر في التماسك النصي.على الرغم من الإنجازات الأخيرة في كلا المهام، لا يزال هناك مجال للتحسين بسبب ندرة البيانات المسمى.لحل المشكلة، نقترح مصنف إنتاج نموذجي في اللغة (LMGC) لاس
نقدم تحسين الحالة المخفية (HSO)، وهي طريقة قائمة على التدرج لتحسين أداء نماذج لغة المحولات في وقت الاستدلال.على غرار التقييم الديناميكي (Krause et al.، 2018)، يقوم HSO بتحسين التدرج على احتمال تسجيل الدخول يعين نموذج اللغة لنص التقييم، ولكنه يستخدمه
تصف هذه الورقة النموذج المدمج للمهمة المشتركة SIGTYP 2021 التي تهدف إلى تحديد 18 لغة مختلفة عن تسجيلات الكلام.يتم تحويل معاملات CEPSTRAL Mel-تردد Mel المستمدة من الملفات الصوتية إلى طفرات، ثم تغذيها بعد ذلك في بنية CNN المستند إلى 50.حصل النموذج النه
تعلم تمثيل كامن جيد ضروري لنقل نمط النص، والذي يولد جملة جديدة عن طريق تغيير سمات جملة معينة مع الحفاظ على محتواها.تعتمد معظم الأعمال السابقة تمثيل تمثيل كامن Disentangled تعلم تحقيق نقل النمط.نقترح خوارزمية نقل نمط النص الجديد مع تمثيل كامن متشابكا،