الهوية واللغة القياسية الهوية هي مهام حاسمة للعديد من تطبيقات معالجة اللغة العربية.في هذه الورقة، نقدم نظامنا القائم على التعلم العميق، المقدم إلى المهمة المشتركة الثانية من النادي الثاني لتحديد المستوى القطري على مستوى المحافظة على اللغة العربية المعيارية الحديثة (MSA) واللهولية العربية (DA).يعتمد النظام على نموذج تعليمي عميق متعدد الإنهائي (MTL) لمعالجة كلا من الرتبة البلد والمستوى من المستوى MSA / DA.يتكون نموذج MTL الأخير من محولات تمثيل ترميز ترميز مشترك (بيرت)، طبقات اهتمام خاصتين بمهام العمل، واثنين من المصنفين.تتمثل فكرتنا الرئيسية في الاستفادة من كل من التمييز على المهمة والميزات المشتركة بين المهام للبلد والمقاطعة MSA / DA الهوية.تظهر النتائج التي تم الحصول عليها أن نموذج MTL يتفوق على نماذج مهمة واحدة في معظم المهام الفرعية.
Dialect and standard language identification are crucial tasks for many Arabic natural language processing applications. In this paper, we present our deep learning-based system, submitted to the second NADI shared task for country-level and province-level identification of Modern Standard Arabic (MSA) and Dialectal Arabic (DA). The system is based on an end-to-end deep Multi-Task Learning (MTL) model to tackle both country-level and province-level MSA/DA identification. The latter MTL model consists of a shared Bidirectional Encoder Representation Transformers (BERT) encoder, two task-specific attention layers, and two classifiers. Our key idea is to leverage both the task-discriminative and the inter-task shared features for country and province MSA/DA identification. The obtained results show that our MTL model outperforms single-task models on most subtasks.
المراجع المستخدمة
https://aclanthology.org/
تشكل بروز أجهزة اللغة التصويرية، مثل السخرية والمفارقة، تحديات خطيرة لتحليل المعنويات العربية (SA).في حين أن أعمال البحث السابقة تعامل معها واكتشاف السخرية بشكل منفصل، تقدم هذه الورقة نموذجا للتعلم العميق المتعدد للمكملات المتعددة الإنهائية (MTL)، مم
يحقق هذا العمل في قيمة زيادة الشبكات العصبية المتكررة مع هندسة ميزة لهندسة الطلب العربي الثاني (NADI) 1.2: تحديد المستوى القطري.نقارن أداء LSTM على مستوى الكلمات البسيطة باستخدام Artrained Abbeddings مع واحدة معززة باستخدام ميزة الميزات للميزات اللغو
تصف هذه الورقة نظامنا المشارك في المهمة 7 من Semeval-2021: الكشف عن الفكاهة والجريمة.تم تصميم المهمة للكشف عن الفكاهة والجريمة التي تتأثر بالعوامل الذاتية.من أجل الحصول على معلومات دلالية من كمية كبيرة من البيانات غير المسبقة، طبقنا نماذج اللغة المدر
تهدف التصنيف متعدد الوسائط واسع النطاق إلى التمييز بين مختلف البيانات متعددة الوسائط، وقد لفت الانتباه بشكل كبير منذ العقد الماضي. في هذه الورقة، نقترح إطارا متعدد المهام في مجال التعلم لمهمة التصنيف المتعدد الوسائط، والتي تتكون من فرعين: فرع متعدد ا
نقدم نتائج ونتائج الهوية العربية ذات الدعوى الدقيقة Thesecond المهمة (NADI 2021).هذه المهام التجارية المشتركة أربعة مجموعات فرعية: تحديد الهوية العربي (SubTask1.1) على المستوى القطري (SubTask1.1)، وتحديد الهدوء على المستوى القطري (SubTAsk1.2)، وهوية