ترغب بنشر مسار تعليمي؟ اضغط هنا

تجارب ساذجة بواي في الهوية الرومانية

Naive Bayes-based Experiments in Romanian Dialect Identification

323   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

توضح هذه المقالة التجارب والأنظمة التي طورها فريق SUKI للطبعة الثانية من المهمة المشتركة لتحديد الهاتية الرومانية (RDI) التي تم تنظيمها كجزء من حملة التقييم الفاديم 2021.لقد قدمنا اثنين يدير إلى المهمة المشتركة، وكان تقديمنا الثاني هو أفضل التقديم بشكل عام من هامش ملحوظ.استخدم أفضل العروض لدينا حرف N-Gram مقصورة BAWEES ساذجة مع نماذج اللغة التكيفية.نحن نصف تجاربنا على مجموعة التنمية المؤدية إلى كل من التقديمات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن تصف اثنين من أجهزة الكمبيوتر المحمولة Jupyter التي تشكل أساس تعيينتين في وحدة معالجة اللغة الطبيعية التمهيدية (NLP) التي تم تدريسها لطلاب البكالوريوس السنة الأخيرة في جامعة دبلن سيتي.تظهر أجهزة الكمبيوتر المحمولة الطلاب كيفية تدريب مصنف قطبية كيس من الكلمات باستخدام بايس ساذجة متعددة الأطراف، وكيفية ضبط مصنف القطبية باستخدام بيرت.يأخذ الطلاب الرمز كنقطة انطلاق تجربتهم الخاصة.
نقدم نتائج ونتائج الهوية العربية ذات الدعوى الدقيقة Thesecond المهمة (NADI 2021).هذه المهام التجارية المشتركة أربعة مجموعات فرعية: تحديد الهوية العربي (SubTask1.1) على المستوى القطري (SubTask1.1)، وتحديد الهدوء على المستوى القطري (SubTAsk1.2)، وهوية MSA على مستوى المقاطعة (SubTask2.1) ولهجة فرعية من مستوى المقاطعةCountrifica-Tion (SubTask 2.2).مجموعة بيانات المهام المشتركة COV-ERS ما مجموعه 100 مقاطعة من 21 محاطة عربية، تم جمعها من مجال تويتر.تم تسجيل فريق TOTOROF 53 من 23 دولة في المحاسبة في المهام، مما يعكس مصلحة المجتمع في هذا المجال.تلقينا 16 حالة من الفئة الفرعية 1.1 من خمسة فرق، 27 حالة من الفئة الفرعية 1.2 من ثمانية فرق، 12 تقريرا ل SubTask 2.1 من أربعة فرق، و 13 طلبا ل SubTask 2.2 من Fourteams.
تعد تحديد الهياكل مهمة مع قابلية التطبيق في مجموعة واسعة من المجالات، تتراوح من التعرف على الكلام التلقائي إلى التعدين في الرأي.يقدم هذا العمل هياكناتنا المستخدمة في مهمة تحديد الهوية الرومانية لعام 2021.لقد أدخلنا سلسلة من الحلول بناء على المحولات ا لرومانية أو متعددة اللغات، فضلا عن تقنيات التدريب المشددي.في الوقت نفسه، جربنا أداة تقطير المعرفة من أجل التحقق مما إذا كان يمكن لنموذج أصغر الحفاظ على أداء أفضل أسلوبنا.تمكن أفضل الحلول لدينا للحصول على درجة F1 مرجحة من 0.7324، مما يتيح لنا الحصول على المركز الثاني على المتصدرين.
يحقق هذا العمل في قيمة زيادة الشبكات العصبية المتكررة مع هندسة ميزة لهندسة الطلب العربي الثاني (NADI) 1.2: تحديد المستوى القطري.نقارن أداء LSTM على مستوى الكلمات البسيطة باستخدام Artrained Abbeddings مع واحدة معززة باستخدام ميزة الميزات للميزات اللغو ية المهندسة.تظهر نتائجنا أن إضافة ميزات صريحة إلى LSTM ضارية للأداء.نحن نعزو هذا فقدان الأداء على التبريد في بعض العناصر اللغوية في بعض النصوص، وكلية المواضيع، والتنقل المشارك.
تعظيم البيانات غير المزعجة (UDA) هي تقنية شبه بيئية تنطبق على فقدان الاتساق لمعاقبة الاختلافات بين تنبؤات النماذج على (أ) أمثلة ملحوظة (غير مسفحة)؛ و (ب) الأمثلة الواضحة المقابلة التي تم إنتاجها عبر تكبير البيانات. في حين أن UDA اكتسبت شعبية لتصنيف ا لنصوص، فإن الأسئلة المفتوحة باقية من قرارات التصميم ضرورية وكيفية تمديد الطريقة لتسلسل مهام وضع العلامات. في هذه الورقة، نعيد فحص UDA وإظهار فعاليتها في العديد من المهام المتسلسلة. مساهمتنا الرئيسية هي دراسة تجريبية ل UDA لتأسيس مكونات الخوارزمية التي تمنح استحقاقات NLP. وخاصة، على الرغم من أن العمل السابق قد أكد على استخدام تقنيات تكبير ذكية بما في ذلك الترجمة ذات الترجمة المرجانية، نجد أن التناسق بين التنبؤات المخصصة للكلمات الملحوظة والمستبدلة غالبا ما تسفر عن فوائد قابلة للمقارنة (أو أكبر) مقارنة بنماذج الاضطرابات الأكثر تعقيدا. علاوة على ذلك، نجد أن تطبيق فقدان اتساق UDA يوفر مكاسب ذات مغزى دون أي بيانات غير قابلة للتحقيق على الإطلاق، أي في إعداد قياسي إشرافي. باختصار، لا تحتاج UDA إلى عدم إدراكها لتحقيق الكثير من فوائدها المذكورة، ولا تتطلب تكبير بيانات معقدة لتكون فعالة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا