ترغب بنشر مسار تعليمي؟ اضغط هنا

النهج القائم على تقسيم أرابيرت وفراسا للكشف عن السخرية والشعور في تغريدات عربية

AraBERT and Farasa Segmentation Based Approach For Sarcasm and Sentiment Detection in Arabic Tweets

203   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة استراتيجيتنا لمعالجة المهمة المشتركة EACL WANLP-2021: السخرية والكشف عن المعنويات.يهدف أحد المهن الفرعية إلى تطوير نظام يحدد ما إذا كانت سقسقة عربية معينة ساخرة في الطبيعة أم لا، في حين أن الآخر يهدف إلى تحديد مشاعر سقسقة اللغة العربية.نحن نقترب من المهمة في خطوتين.تتضمن الخطوة الأولى مسبقا لمعلومات البيانات المقدمة من خلال إجراء الإدراج والحذف وعمليات التجزئة في أجزاء مختلفة من النص.تنطوي الخطوة الثانية على تجربة متغيرات متعددة من نماذج محولتين، Araelectra وعربت.تم تصنيف نهجنا النهائي في المرتبة السابعة والرابعة في المهاجمين والكشف عن المشاعر الفرعية على التوالي.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الورقة نهجنا لمعالجة المهمة المشتركة EACL WANLP-2021 1: تحديد الهلام العربي الدقيق (NADI).تهدف المهمة إلى تطوير نظام يحدد الموقع الجغرافي (البلد / المقاطعة) من مكان وجود تغريدة عربية في شكل لغة عربية أو لهجة قياسية حديثة تأتي من.نحن نحل المه مة في جزأين.ينطوي الجزء الأول على معالجة البيانات المقدمة مسبقا عن طريق التنظيف وإضافة وأجزاء مختلفة من النص.يتبع ذلك إجراء تجارب مع إصدارات مختلفة من النماذج القائمة على المحولات، أرابيرت وأعريليكترا.حقق نهجنا النهائي درجات ماكرو F1 من 0.216، 0.235، 0.054، و 0.043 في الترقيم الفرعي الأربع، وتم تصنيفنا في المرتبة الثانية في المهام الفرعية لتعريف MSA والرابع في عمليات تحديد الهوية الفرعية.
الكشف عن السخرية هو واحد من أفضل المهام الصعبة في تصنيف النص، لا سيما بالنسبة للغة العربية غير الرسمية بالغشاء النحوي والدلي العالي.نقترح أنظمتين تسخير المعرفة من مهام متعددة لتحسين أداء المصنف.تقدم هذه الورقة أنظمة المستخدمة في مشاركتنا إلى المهام ا لفرعية لورشة معالجة اللغات الطبيعية العربية السادسة (WANLP)؛تحليل السخرية وتحليل المعنويات.المنهجيات الخاصة بنا مدفوعة بفرضية أن التغريدات ذات الشعور السلبي والثغرات السلبية مع محتوى السخرية من غير المرجح أن يكون لها محتوى مسيء، وبالتالي، تؤدي إلى ضبط طراز التصنيف باستخدام كوربوس كبيرة من اللغة المسيئة، عملية التعلم للنموذج للكشف بشكل فعالالمعنويات ومحتويات السخرية.توضح النتائج فعالية نهجنا لمهمة الكشف عن السخرية على مهمة تحليل المعنويات.
خلال السنوات القليلة الماضية، يكون عدد مستخدمي الإنترنت العربي والمحتوى العربي عبر الإنترنت في النمو الأسي.تعتبر التعامل مع مجموعات البيانات العربية واستخدام الجمل غير الصريحة للتعبير عن الرأي هي التحديات الرئيسية في مجال معالجة اللغات الطبيعية.وبالت الي، اكتسبت السخرية وتحليل المعنويات اهتماما كبيرا من مجتمع البحث، وخاصة في هذه اللغة.يمكن تطبيق الكشف التلقائي للاستخراج وتحليل المعنويات باستخدام ثلاث نهج، وهي نهج إشراف على الإشراف وغير الخاضع للإشراف والجاذبية.في هذه الورقة، تم استخدام نموذج يعتمد على خوارزمية لتعلم الآلة الإشراف يسمى آلة ناقلات الدعم (SVM) بهذه العملية.تم تقييم النموذج المقترح باستخدام DataSet Arsarcasm-V2.تمت مقارنة أداء النموذج المقترح مع النماذج الأخرى المقدمة إلى تحليل المعنويات والكشف عن السخرية المهمة المشتركة.
تم إدخال نماذج اللغة القائمة على المحولات خطوة ثورية لأبحاث معالجة اللغة الطبيعية (NLP). أدت هذه النماذج، مثل Bert، GPT و Electra، إلى أداء أحدث في العديد من مهام NLP. تم تطوير معظم هذه النماذج في البداية للغة الإنجليزية ولغات أخرى تبعها لاحقا. في ال آونة الأخيرة، بدأت عدة نماذج عربية خاصة الناشئة. ومع ذلك، هناك مقارنات محدودة مباشرة بين هذه النماذج. في هذه الورقة، نقيم أداء 24 من هذه النماذج على المعنويات العربية والكشف عن السخرية. تظهر نتائجنا أن النماذج التي تحققت أفضل أداء هي تلك التي يتم تدريبها على البيانات العربية فقط، بما في ذلك اللغة العربية ذاتي، واستخدام عدد أكبر من المعلمات، مثل Marbert صدر مؤخرا. ومع ذلك، لاحظنا أن ARAELECTRA هي واحدة من أفضل النماذج الأدائية بينما تكون أكثر كفاءة في تكلفتها الحسابية. أخيرا، أظهرت التجارب على المتغيرات Aragpt2 أداء منخفضة مقارنة بنماذج Bert، مما يشير إلى أنه قد لا يكون مناسبا لمهام التصنيف.
منذ إنشائها، أدت نماذج اللغة القائمة على المحولات إلى مكاسب أداء مثيرة للإعجاب عبر مهام معالجة لغات طبيعية متعددة. بالنسبة للعربية، يتم تحقيق النتائج الحالية من أحدث البيانات في معظم مجموعات البيانات بواسطة نموذج اللغة العربية. على الرغم من هذه التطو رات الحديثة، يستمر الكشف عن السخرية والشاحنات بمهام تحديا باللغة العربية، بالنظر إلى التشكل الغني باللغة والتفاوت اللغوي والاختلافات الجدلية. تقدم فريق Project Team Profers لفريق SPPU-AASM للمهمة المشتركة Wanlp Arsarcasm المشتركة 2021، والمراكز حول الكشف عن السخرية ومشاعر القطبية للعقائز العربية. تقترح الدراسة نموذجا مختلطا، يجمع بين تمثيلات الجملة من أرابيرت مع ناقلات كلمة ثابتة تدربت على شركة الوسائط الاجتماعية العربية. يحقق النظام المقترح درجة F1-Saarchastic من 0.62 ودرجة F-PN من 0.715 بمهام الكشف عن السخرية والشاحنات، على التوالي. تشير نتائج المحاكاة إلى أن النظام المقترح تتفوق على العديد من النهج الحالية لكل من المهام، مما يشير إلى أن دمج تمثيلات نصية خالية من السياق والسياق يمكن أن تساعد في التقاط جوانب تكميلية من معنى الكلمات باللغة العربية. احتل النظام المرتبة الثانية والعاشرة في المهام الفرعية ذات الصلة بتكشف السخرية وتحديد المعنويات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا