تقديم مجموعة بيانات تونسية كبيرة تونسية لتحليل المعنويات


الملخص بالعربية

على مختلف منصات وسائل التواصل الاجتماعي، يميل الناس، إلى استخدام الطريقة غير الرسمية للتواصل، أو كتابة المشاركات والتعليقات: لهجاتهم المحلية.في أفريقيا، توجد أكثر من 1500 لغة ولغات.لا سيما، يتحدث التونسيون والكتابة بشكل غير رسمي باستخدام الحروف والأرقام اللاتينية بدلا من تلك العربية.في هذه الورقة، نقدم مجموعة بيانات تونسية تونسية تونسية كبيرة ومقرها شائعة مخصصة لتحليل المعنويات.تتكون DataSet من إجمالي التعليقات 100K (عن الأفلام والسياسة والرياضة، إلخ) المشروح يدويا من قبل المتكلمين الأصليين التونسيين على أنها إيجابية وسلبية ومحايدة.نقوم بتقييم مجموعة بياناتنا حول مهمة تحليل المعنويات باستخدام تمثيلات التشفير الثنائية من المحولات (Bert) كطراز لغة سياقي في إصدارها متعدد اللغات (MBERT) كتقنية تضمين، ثم دمج MBERT مع الشبكة العصبية التنافسية (CNN) كمعقل.DataSet متاحة للجمهور.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث