ترغب بنشر مسار تعليمي؟ اضغط هنا

نموذج متعدد المهام مقرها بيرت لمقاطعة MSA والحمولية الهوية العربية

BERT-based Multi-Task Model for Country and Province Level MSA and Dialectal Arabic Identification

437   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الهوية واللغة القياسية الهوية هي مهام حاسمة للعديد من تطبيقات معالجة اللغة العربية.في هذه الورقة، نقدم نظامنا القائم على التعلم العميق، المقدم إلى المهمة المشتركة الثانية من النادي الثاني لتحديد المستوى القطري على مستوى المحافظة على اللغة العربية المعيارية الحديثة (MSA) واللهولية العربية (DA).يعتمد النظام على نموذج تعليمي عميق متعدد الإنهائي (MTL) لمعالجة كلا من الرتبة البلد والمستوى من المستوى MSA / DA.يتكون نموذج MTL الأخير من محولات تمثيل ترميز ترميز مشترك (بيرت)، طبقات اهتمام خاصتين بمهام العمل، واثنين من المصنفين.تتمثل فكرتنا الرئيسية في الاستفادة من كل من التمييز على المهمة والميزات المشتركة بين المهام للبلد والمقاطعة MSA / DA الهوية.تظهر النتائج التي تم الحصول عليها أن نموذج MTL يتفوق على نماذج مهمة واحدة في معظم المهام الفرعية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تشكل بروز أجهزة اللغة التصويرية، مثل السخرية والمفارقة، تحديات خطيرة لتحليل المعنويات العربية (SA).في حين أن أعمال البحث السابقة تعامل معها واكتشاف السخرية بشكل منفصل، تقدم هذه الورقة نموذجا للتعلم العميق المتعدد للمكملات المتعددة الإنهائية (MTL)، مم ا يتيح تفاعل المعرفة بين المهامتين.تتكون بنية MTL Model الخاصة بنا من تمثيل ترميز ثنائي الاتجاه من طراز المحولات (Bert)، وحدة تفاعل انتباه متعددة المهام، واثنين من مصنفين المهامين.تظهر النتائج الإجمالية التي تم الحصول عليها أن نموذجنا المقترح تتفوق على نظرائه المهمة الواحدة و MTL على كل من المهاجمة والشعور الفرعي للكشف عن المعنويات.
يحقق هذا العمل في قيمة زيادة الشبكات العصبية المتكررة مع هندسة ميزة لهندسة الطلب العربي الثاني (NADI) 1.2: تحديد المستوى القطري.نقارن أداء LSTM على مستوى الكلمات البسيطة باستخدام Artrained Abbeddings مع واحدة معززة باستخدام ميزة الميزات للميزات اللغو ية المهندسة.تظهر نتائجنا أن إضافة ميزات صريحة إلى LSTM ضارية للأداء.نحن نعزو هذا فقدان الأداء على التبريد في بعض العناصر اللغوية في بعض النصوص، وكلية المواضيع، والتنقل المشارك.
تصف هذه الورقة نظامنا المشارك في المهمة 7 من Semeval-2021: الكشف عن الفكاهة والجريمة.تم تصميم المهمة للكشف عن الفكاهة والجريمة التي تتأثر بالعوامل الذاتية.من أجل الحصول على معلومات دلالية من كمية كبيرة من البيانات غير المسبقة، طبقنا نماذج اللغة المدر بة مسبقا غير مدبونة.من خلال إجراء البحوث والتجارب، وجدنا أن نماذج Ernie 2.0 و Deberta مدربة مسبقا حققت أداء مثير للإعجاب في مختلف المهام الفرعية.لذلك، طبقنا النماذج المدربة مسبقا أعلاه لضبط الشبكة العصبية المصب.في عملية ضبط النموذج بشكل جيد، اعتمكن من استراتيجية التدريب المتعدد المهام وطريقة تعلم الفرقة.استنادا إلى الاستراتيجية والطريقة المذكورة أعلاه، حققنا RMSE 0.4959 ل SubTask 1B، وفاز أخيرا في المقام الأول.
تهدف التصنيف متعدد الوسائط واسع النطاق إلى التمييز بين مختلف البيانات متعددة الوسائط، وقد لفت الانتباه بشكل كبير منذ العقد الماضي. في هذه الورقة، نقترح إطارا متعدد المهام في مجال التعلم لمهمة التصنيف المتعدد الوسائط، والتي تتكون من فرعين: فرع متعدد ا لأضوانات متعدد الوسائط وفرع النمذجة متعددة الوسائط المستنتيت بالاهتمام. يمكن أن يتلقى AutoNcoder متعدد الوسائط ميزات متعددة الوسائط والحصول على المعلومات التفاعلية التي تسمى ميزة التشفير متعددة الوسائط، واستخدام هذه الميزة لإعادة تكوين جميع بيانات الإدخال. بالإضافة إلى ذلك، يمكن استخدام ميزة التشفير المتعددة مشروط لإثراء بيانات DataSet RAW، وتحسين أداء مهام المصب (مثل مهمة التصنيف). أما بالنسبة لفرع النمذجة المتعددة الأبعاد القائم على الانتباه، فإننا نوصي أولا آلية الاهتمام لجعل النموذج يركز على الميزات المهمة، ثم نستخدم ميزة التشفير متعددة الوسائط لإثراء معلومات الإدخال، وتحقيق أداء أفضل. نقوم بإجراء تجارب مكثفة على مجموعة بيانات مختلفة، توضح النتائج فعالية الإطار المقترح.
نقدم نتائج ونتائج الهوية العربية ذات الدعوى الدقيقة Thesecond المهمة (NADI 2021).هذه المهام التجارية المشتركة أربعة مجموعات فرعية: تحديد الهوية العربي (SubTask1.1) على المستوى القطري (SubTask1.1)، وتحديد الهدوء على المستوى القطري (SubTAsk1.2)، وهوية MSA على مستوى المقاطعة (SubTask2.1) ولهجة فرعية من مستوى المقاطعةCountrifica-Tion (SubTask 2.2).مجموعة بيانات المهام المشتركة COV-ERS ما مجموعه 100 مقاطعة من 21 محاطة عربية، تم جمعها من مجال تويتر.تم تسجيل فريق TOTOROF 53 من 23 دولة في المحاسبة في المهام، مما يعكس مصلحة المجتمع في هذا المجال.تلقينا 16 حالة من الفئة الفرعية 1.1 من خمسة فرق، 27 حالة من الفئة الفرعية 1.2 من ثمانية فرق، 12 تقريرا ل SubTask 2.1 من أربعة فرق، و 13 طلبا ل SubTask 2.2 من Fourteams.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا