توضح هذه المقالة التجارب والأنظمة التي طورها فريق SUKI للطبعة الثانية من المهمة المشتركة لتحديد الهاتية الرومانية (RDI) التي تم تنظيمها كجزء من حملة التقييم الفاديم 2021.لقد قدمنا اثنين يدير إلى المهمة المشتركة، وكان تقديمنا الثاني هو أفضل التقديم بشكل عام من هامش ملحوظ.استخدم أفضل العروض لدينا حرف N-Gram مقصورة BAWEES ساذجة مع نماذج اللغة التكيفية.نحن نصف تجاربنا على مجموعة التنمية المؤدية إلى كل من التقديمات.
This article describes the experiments and systems developed by the SUKI team for the second edition of the Romanian Dialect Identification (RDI) shared task which was organized as part of the 2021 VarDial Evaluation Campaign. We submitted two runs to the shared task and our second submission was the overall best submission by a noticeable margin. Our best submission used a character n-gram based naive Bayes classifier with adaptive language models. We describe our experiments on the development set leading to both submissions.
المراجع المستخدمة
https://aclanthology.org/
نحن تصف اثنين من أجهزة الكمبيوتر المحمولة Jupyter التي تشكل أساس تعيينتين في وحدة معالجة اللغة الطبيعية التمهيدية (NLP) التي تم تدريسها لطلاب البكالوريوس السنة الأخيرة في جامعة دبلن سيتي.تظهر أجهزة الكمبيوتر المحمولة الطلاب كيفية تدريب مصنف قطبية كيس
نقدم نتائج ونتائج الهوية العربية ذات الدعوى الدقيقة Thesecond المهمة (NADI 2021).هذه المهام التجارية المشتركة أربعة مجموعات فرعية: تحديد الهوية العربي (SubTask1.1) على المستوى القطري (SubTask1.1)، وتحديد الهدوء على المستوى القطري (SubTAsk1.2)، وهوية
تعد تحديد الهياكل مهمة مع قابلية التطبيق في مجموعة واسعة من المجالات، تتراوح من التعرف على الكلام التلقائي إلى التعدين في الرأي.يقدم هذا العمل هياكناتنا المستخدمة في مهمة تحديد الهوية الرومانية لعام 2021.لقد أدخلنا سلسلة من الحلول بناء على المحولات ا
يحقق هذا العمل في قيمة زيادة الشبكات العصبية المتكررة مع هندسة ميزة لهندسة الطلب العربي الثاني (NADI) 1.2: تحديد المستوى القطري.نقارن أداء LSTM على مستوى الكلمات البسيطة باستخدام Artrained Abbeddings مع واحدة معززة باستخدام ميزة الميزات للميزات اللغو
تعظيم البيانات غير المزعجة (UDA) هي تقنية شبه بيئية تنطبق على فقدان الاتساق لمعاقبة الاختلافات بين تنبؤات النماذج على (أ) أمثلة ملحوظة (غير مسفحة)؛ و (ب) الأمثلة الواضحة المقابلة التي تم إنتاجها عبر تكبير البيانات. في حين أن UDA اكتسبت شعبية لتصنيف ا