ترغب بنشر مسار تعليمي؟ اضغط هنا

الهوية العربية على المستوى القطري باستخدام RNNS مع وبدون ميزات لغوية

Country-level Arabic Dialect Identification using RNNs with and without Linguistic Features

534   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يحقق هذا العمل في قيمة زيادة الشبكات العصبية المتكررة مع هندسة ميزة لهندسة الطلب العربي الثاني (NADI) 1.2: تحديد المستوى القطري.نقارن أداء LSTM على مستوى الكلمات البسيطة باستخدام Artrained Abbeddings مع واحدة معززة باستخدام ميزة الميزات للميزات اللغوية المهندسة.تظهر نتائجنا أن إضافة ميزات صريحة إلى LSTM ضارية للأداء.نحن نعزو هذا فقدان الأداء على التبريد في بعض العناصر اللغوية في بعض النصوص، وكلية المواضيع، والتنقل المشارك.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الهوية واللغة القياسية الهوية هي مهام حاسمة للعديد من تطبيقات معالجة اللغة العربية.في هذه الورقة، نقدم نظامنا القائم على التعلم العميق، المقدم إلى المهمة المشتركة الثانية من النادي الثاني لتحديد المستوى القطري على مستوى المحافظة على اللغة العربية الم عيارية الحديثة (MSA) واللهولية العربية (DA).يعتمد النظام على نموذج تعليمي عميق متعدد الإنهائي (MTL) لمعالجة كلا من الرتبة البلد والمستوى من المستوى MSA / DA.يتكون نموذج MTL الأخير من محولات تمثيل ترميز ترميز مشترك (بيرت)، طبقات اهتمام خاصتين بمهام العمل، واثنين من المصنفين.تتمثل فكرتنا الرئيسية في الاستفادة من كل من التمييز على المهمة والميزات المشتركة بين المهام للبلد والمقاطعة MSA / DA الهوية.تظهر النتائج التي تم الحصول عليها أن نموذج MTL يتفوق على نماذج مهمة واحدة في معظم المهام الفرعية.
نقدم نتائج ونتائج الهوية العربية ذات الدعوى الدقيقة Thesecond المهمة (NADI 2021).هذه المهام التجارية المشتركة أربعة مجموعات فرعية: تحديد الهوية العربي (SubTask1.1) على المستوى القطري (SubTask1.1)، وتحديد الهدوء على المستوى القطري (SubTAsk1.2)، وهوية MSA على مستوى المقاطعة (SubTask2.1) ولهجة فرعية من مستوى المقاطعةCountrifica-Tion (SubTask 2.2).مجموعة بيانات المهام المشتركة COV-ERS ما مجموعه 100 مقاطعة من 21 محاطة عربية، تم جمعها من مجال تويتر.تم تسجيل فريق TOTOROF 53 من 23 دولة في المحاسبة في المهام، مما يعكس مصلحة المجتمع في هذا المجال.تلقينا 16 حالة من الفئة الفرعية 1.1 من خمسة فرق، 27 حالة من الفئة الفرعية 1.2 من ثمانية فرق، 12 تقريرا ل SubTask 2.1 من أربعة فرق، و 13 طلبا ل SubTask 2.2 من Fourteams.
توضح هذه المقالة نظاما للتنبؤ بمهمة تقوية التعقيد المعجمية (LCP) التي تم استضافتها في Semeval 2021 (المهمة 1) مع مجموعة بيانات جديدة مشروحة مع مقياس Likert.يقع المهمة في مسار الدلالات المعجمية، وتألفت المهمة من التنبؤ بقيمة تعقيد الكلمات في السياق.تم تنفيذ نهج لتعلم الآلات بناء على تواتر الكلمات والعديد من الخصائص المضافة على مستوى Word.على هذه الميزات، تم تدريب خوارزمية الانحدار الغابات العشوائية الخاضعة للإشراف.تم إجراء عدة أشواط بقيم مختلفة لمراقبة أداء الخوارزمية.للتقييم، أبلغت أفضل النتائج الخاصة بنا عن درجة M.A.E 0.07347، M.S.E.من 0.00938، و R.M.S.E.من 0.096871.أظهرت تجاربنا أنه مع عدد أكبر من الخصائص، فإن دقة التصنيف تزداد.
بناء أنظمة NLP التي تخدم الجميع يتطلب محاسبة اختلافات اللهجة. ولكن اللهجات ليست كيانات متجانسة: بالأحرى، يتم التقاط الفروق بين اللهجات وداخلها من خلال وجود وغياب العشرات من ميزات اللهجة في الكلام والنص، مثل حذف كوبولا في إنه ∅ قيد التشغيل ". في هذه ا لورقة، نقدم مهمة الكشف عن ميزة اللهجة، وتقديم نهج تعليمي متعدد الأيتاكي، بناء على المحولات المحددة مسبقا. بالنسبة لمعظم اللهجات، لا تتوفر كوربورا المشروح على نطاق واسع لهذه الميزات، مما يجعل من الصعب تدريب التعرف عليها. نحن ندرب نماذجنا على عدد صغير من أزواج صغيرة، والبناء على كيفية تحديد اللغويين عادة ميزات اللهجة. التقييم في مجموعة اختبار من 22 ميزات لهجيات للهنديون يدل على أن هذه النماذج تتعلم كيفية التعرف على العديد من الميزات بدقة عالية، وأن عدد قليل من أزواج الحد الأدنى يمكن أن تكون فعالة للتدريب مع الآلاف من الأمثلة المسمى. ونحن نوضح أيضا إمكانية تطبيق ميزة الهياكل على حد سواء كإجراء من كثافة اللهجة وكمعشر لهجة اللهجة.
تقدم هذه الورقة نهجنا لمعالجة المهمة المشتركة EACL WANLP-2021 1: تحديد الهلام العربي الدقيق (NADI).تهدف المهمة إلى تطوير نظام يحدد الموقع الجغرافي (البلد / المقاطعة) من مكان وجود تغريدة عربية في شكل لغة عربية أو لهجة قياسية حديثة تأتي من.نحن نحل المه مة في جزأين.ينطوي الجزء الأول على معالجة البيانات المقدمة مسبقا عن طريق التنظيف وإضافة وأجزاء مختلفة من النص.يتبع ذلك إجراء تجارب مع إصدارات مختلفة من النماذج القائمة على المحولات، أرابيرت وأعريليكترا.حقق نهجنا النهائي درجات ماكرو F1 من 0.216، 0.235، 0.054، و 0.043 في الترقيم الفرعي الأربع، وتم تصنيفنا في المرتبة الثانية في المهام الفرعية لتعريف MSA والرابع في عمليات تحديد الهوية الفرعية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا