ترغب بنشر مسار تعليمي؟ اضغط هنا

تحديد الهياكل في تغريدات عربية محددة باستخدام تجزئة Farasa

Dialect Identification in Nuanced Arabic Tweets Using Farasa Segmentation and AraBERT

182   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة نهجنا لمعالجة المهمة المشتركة EACL WANLP-2021 1: تحديد الهلام العربي الدقيق (NADI).تهدف المهمة إلى تطوير نظام يحدد الموقع الجغرافي (البلد / المقاطعة) من مكان وجود تغريدة عربية في شكل لغة عربية أو لهجة قياسية حديثة تأتي من.نحن نحل المهمة في جزأين.ينطوي الجزء الأول على معالجة البيانات المقدمة مسبقا عن طريق التنظيف وإضافة وأجزاء مختلفة من النص.يتبع ذلك إجراء تجارب مع إصدارات مختلفة من النماذج القائمة على المحولات، أرابيرت وأعريليكترا.حقق نهجنا النهائي درجات ماكرو F1 من 0.216، 0.235، 0.054، و 0.043 في الترقيم الفرعي الأربع، وتم تصنيفنا في المرتبة الثانية في المهام الفرعية لتعريف MSA والرابع في عمليات تحديد الهوية الفرعية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الورقة استراتيجيتنا لمعالجة المهمة المشتركة EACL WANLP-2021: السخرية والكشف عن المعنويات.يهدف أحد المهن الفرعية إلى تطوير نظام يحدد ما إذا كانت سقسقة عربية معينة ساخرة في الطبيعة أم لا، في حين أن الآخر يهدف إلى تحديد مشاعر سقسقة اللغة العربي ة.نحن نقترب من المهمة في خطوتين.تتضمن الخطوة الأولى مسبقا لمعلومات البيانات المقدمة من خلال إجراء الإدراج والحذف وعمليات التجزئة في أجزاء مختلفة من النص.تنطوي الخطوة الثانية على تجربة متغيرات متعددة من نماذج محولتين، Araelectra وعربت.تم تصنيف نهجنا النهائي في المرتبة السابعة والرابعة في المهاجمين والكشف عن المشاعر الفرعية على التوالي.
وقد رافق انتشار Covid-19 بمعلومات مفاجئة واسعة النطاق بشأن وسائل التواصل الاجتماعي.على وجه الخصوص، شهد Twittercrive زيادة كبيرة في نشر الحقائق والأرقام المشوهة.يهدف هذا العمل الحالي إلى تحديد تغريدات بشأن CovID-19 التي تحتوي على معلومات ضارة وخاطئة.ل قد جربنا عددا من النماذج التعلم العميقة، بما في ذلك تضمين كلمة مختلفة، مثل القفازات، إلمو، من بين أمور أخرى.حقق نموذج Bertweet أفضل درجة F1 بشكل عام من 0.881 وأمنت المرتبة الثالثة على المهمة المذكورة أعلاه.
نقدم نتائج ونتائج الهوية العربية ذات الدعوى الدقيقة Thesecond المهمة (NADI 2021).هذه المهام التجارية المشتركة أربعة مجموعات فرعية: تحديد الهوية العربي (SubTask1.1) على المستوى القطري (SubTask1.1)، وتحديد الهدوء على المستوى القطري (SubTAsk1.2)، وهوية MSA على مستوى المقاطعة (SubTask2.1) ولهجة فرعية من مستوى المقاطعةCountrifica-Tion (SubTask 2.2).مجموعة بيانات المهام المشتركة COV-ERS ما مجموعه 100 مقاطعة من 21 محاطة عربية، تم جمعها من مجال تويتر.تم تسجيل فريق TOTOROF 53 من 23 دولة في المحاسبة في المهام، مما يعكس مصلحة المجتمع في هذا المجال.تلقينا 16 حالة من الفئة الفرعية 1.1 من خمسة فرق، 27 حالة من الفئة الفرعية 1.2 من ثمانية فرق، 12 تقريرا ل SubTask 2.1 من أربعة فرق، و 13 طلبا ل SubTask 2.2 من Fourteams.
المفارقة والكشف عن المعنويات مهمة لفهم سلوك الناس وأفكار الناس.وبالتالي أصبحت مهمة شعبية في معالجة اللغة الطبيعية (NLP).هذه الورقة تقدم النتائج والنتائج الرئيسية في المهام المشتركة WANLP 2021 واحدة واثنين.استندت المهمة إلى DataSet Arsarcasm-V2 (أبو ف رحة وآخرون، 2021).في هذه الورقة، نحن نصف نظامنا متعدد الرؤوس LSTM-CNN-GRU وكذلك ماربرت (عبد المجيد وآخرون، 2021) مقدم لهذه المهمة المشتركة، المرتبة 10 من أصل 27 في مهمة مشتركة تحقيق واحد 0.5662 F1-Sarcasmوتحتل المرتبة 3 من 22 في المهمة المشتركة اثنين من تحقيق 0.7321 F1-PN تحت اسم مستخدم Codalab Rematchka ''.لقد جربنا نماذج مختلفة، وهناك نماذج أفضل أداء هي مجموعة من cnn-lstm متعددة برأسنا، حيث استخدمنا نص prepossessed و emoji المقدمة من تغريدات وماربرت.
خلال الأشهر القليلة الماضية، كانت هناك أعداد هائلة من التغريدات المتداولة والمناقشات حول Vironavirus (Covid-19) في المنطقة العربية.من المهم لصانعي السياسات والعديد من الأشخاص تحديد أنواع التغريدات المشتركة لفهم السلوك العام بشكل أفضل، ومواضيع المصالح ، وطلبات الحكومات، ومصادر التغريدات، وما إلى ذلك. كما أنه من الأهمية بمكان انتشار شائعات وإضاءة في الفيروس أوعلاجات سيئة.تحقيقا لهذه الغاية، نقدم أكبر مجموعة بيانات مشروحة يدويا من تغريدات عربية تتعلق بالكوف (19).نحن تصف إرشادات التوضيحية، وتحليل DataSet لدينا وبناء نماذج التعلم والتحول في الآلات الفعالة للتصنيف.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا