ترغب بنشر مسار تعليمي؟ اضغط هنا

معيار النماذج اللغوية القائمة على المحولات للشعور العربي والكشف عن السخرية

Benchmarking Transformer-based Language Models for Arabic Sentiment and Sarcasm Detection

306   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم إدخال نماذج اللغة القائمة على المحولات خطوة ثورية لأبحاث معالجة اللغة الطبيعية (NLP). أدت هذه النماذج، مثل Bert، GPT و Electra، إلى أداء أحدث في العديد من مهام NLP. تم تطوير معظم هذه النماذج في البداية للغة الإنجليزية ولغات أخرى تبعها لاحقا. في الآونة الأخيرة، بدأت عدة نماذج عربية خاصة الناشئة. ومع ذلك، هناك مقارنات محدودة مباشرة بين هذه النماذج. في هذه الورقة، نقيم أداء 24 من هذه النماذج على المعنويات العربية والكشف عن السخرية. تظهر نتائجنا أن النماذج التي تحققت أفضل أداء هي تلك التي يتم تدريبها على البيانات العربية فقط، بما في ذلك اللغة العربية ذاتي، واستخدام عدد أكبر من المعلمات، مثل Marbert صدر مؤخرا. ومع ذلك، لاحظنا أن ARAELECTRA هي واحدة من أفضل النماذج الأدائية بينما تكون أكثر كفاءة في تكلفتها الحسابية. أخيرا، أظهرت التجارب على المتغيرات Aragpt2 أداء منخفضة مقارنة بنماذج Bert، مما يشير إلى أنه قد لا يكون مناسبا لمهام التصنيف.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

خلال السنوات القليلة الماضية، يكون عدد مستخدمي الإنترنت العربي والمحتوى العربي عبر الإنترنت في النمو الأسي.تعتبر التعامل مع مجموعات البيانات العربية واستخدام الجمل غير الصريحة للتعبير عن الرأي هي التحديات الرئيسية في مجال معالجة اللغات الطبيعية.وبالت الي، اكتسبت السخرية وتحليل المعنويات اهتماما كبيرا من مجتمع البحث، وخاصة في هذه اللغة.يمكن تطبيق الكشف التلقائي للاستخراج وتحليل المعنويات باستخدام ثلاث نهج، وهي نهج إشراف على الإشراف وغير الخاضع للإشراف والجاذبية.في هذه الورقة، تم استخدام نموذج يعتمد على خوارزمية لتعلم الآلة الإشراف يسمى آلة ناقلات الدعم (SVM) بهذه العملية.تم تقييم النموذج المقترح باستخدام DataSet Arsarcasm-V2.تمت مقارنة أداء النموذج المقترح مع النماذج الأخرى المقدمة إلى تحليل المعنويات والكشف عن السخرية المهمة المشتركة.
يوضح هذا العمل عملية تطوير بنية تعلم الآلة للاستدلال الذي يمكن أن يتجاوز حجم كبير من الطلبات.استخدمنا نموذج بيرت الذي كان يركض بشكل جيد لتحليل العاطفة، وإرجاع توزيع احتمالية للعواطف بالنظر إلى فقرة.تم نشر النموذج كخدمة GRPC على KUBERNNTES.تم استخدام Apache Spark لأداء الاستدلال على دفعات عن طريق استدعاء الخدمة.واجهنا بعض تحديات الأداء والتزامن وإنشاء حلول لتحقيق وقت التشغيل بشكل أسرع.بدءا من 200 طلب استنتاج ناجح في الدقيقة، تمكنا من تحقيق ما يصل إلى 18 ألف طلب ناجح في الدقيقة مع نفس تخصيص الموارد الوظيفية الدفاعية.نتيجة لذلك، نجحنا في تخزين احتمالات العاطفة لمدة 95 مليون فقرات في غضون 96 ساعة.
تجذب تصنيف المعنويات والكشف عن السخرية الكثير من الاهتمام من قبل مجتمع البحوث NLP. ومع ذلك، فإن حل هاتين المشكلتين باللغة العربية وعلى أساس بيانات الشبكة الاجتماعية (I.E.، Twitter) لا يزال مصلحة أقل. في هذه الورقة نقدم حلولا مخصصة لتصنيف المعنويات وم هام الكشف عن السخرية التي تم تقديمها كجزء من مهمة مشتركة من قبل أبو فرحة وآخرون. (2021). نقوم بضبط نماذج المحولات الحالية المحولات الحالية لاحتياجاتنا. بالإضافة إلى ذلك، نستخدم مجموعة متنوعة من تقنيات التعلم الآلي مثل أخذ العينات الأولية والتكبير والتعبئة والتغليف واستخدام ميزات META لتحسين أداء النماذج. نحن نحقق درجة F1 من 0.75 على مشكلة تصنيف المعنويات حيث يتم حساب درجة F1 على الفصول الإيجابية والسلبية (لا يتم أخذ الفصل المحايد في الاعتبار). نحن نحقق درجة F1 من 0.66 فوق مشكلة الكشف عن السخرية حيث يتم حساب درجة F1 عبر الفئة الساخرة فقط. في كلتا الحالتين، يتم تقييم النتائج المذكورة أعلاه على Arsarcasm-V2 - مجموعة بيانات ممتدة من Arsarcasm (Farha و Magdy، 2020) تم تقديمها كجزء من المهمة المشتركة. هذا يعكس تحسنا لتحقيق أحدث النتائج في كلتا المهام.
وصفنا نظامنا المقدم لهذه المهمة المشتركة 2021 بشأن السخرية والكشف عن المعنويات باللغة العربية (أبو فرحة وآخرون، 2021).لقد تناولنا كل من المجموعات الفرعية، وهما اكتشاف السخرية (الفرعية 1) وتحليل المعرفات (SubTask 2).استخدمنا نماذج تمثيل نصية محكومة لل حالة من بين الفنون وتصنفها بشكل جيد وفقا لمهمة المصب في متناول اليد.كهدودي أول، استخدمنا بيرت متعددة اللغات من Google ثم المتغيرات العربية الأخرى: أرابيرت وأشرر وماربيرت.وجدت النتائج تظهر أن Marbert تفوقت على جميع النماذج المذكورة مسبقا بشكل عام، إما على التراكب الفرعي 1 أو Subtask 2.
الكشف عن السخرية هو واحد من أفضل المهام الصعبة في تصنيف النص، لا سيما بالنسبة للغة العربية غير الرسمية بالغشاء النحوي والدلي العالي.نقترح أنظمتين تسخير المعرفة من مهام متعددة لتحسين أداء المصنف.تقدم هذه الورقة أنظمة المستخدمة في مشاركتنا إلى المهام ا لفرعية لورشة معالجة اللغات الطبيعية العربية السادسة (WANLP)؛تحليل السخرية وتحليل المعنويات.المنهجيات الخاصة بنا مدفوعة بفرضية أن التغريدات ذات الشعور السلبي والثغرات السلبية مع محتوى السخرية من غير المرجح أن يكون لها محتوى مسيء، وبالتالي، تؤدي إلى ضبط طراز التصنيف باستخدام كوربوس كبيرة من اللغة المسيئة، عملية التعلم للنموذج للكشف بشكل فعالالمعنويات ومحتويات السخرية.توضح النتائج فعالية نهجنا لمهمة الكشف عن السخرية على مهمة تحليل المعنويات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا