على مختلف منصات وسائل التواصل الاجتماعي، يميل الناس، إلى استخدام الطريقة غير الرسمية للتواصل، أو كتابة المشاركات والتعليقات: لهجاتهم المحلية.في أفريقيا، توجد أكثر من 1500 لغة ولغات.لا سيما، يتحدث التونسيون والكتابة بشكل غير رسمي باستخدام الحروف والأرقام اللاتينية بدلا من تلك العربية.في هذه الورقة، نقدم مجموعة بيانات تونسية تونسية تونسية كبيرة ومقرها شائعة مخصصة لتحليل المعنويات.تتكون DataSet من إجمالي التعليقات 100K (عن الأفلام والسياسة والرياضة، إلخ) المشروح يدويا من قبل المتكلمين الأصليين التونسيين على أنها إيجابية وسلبية ومحايدة.نقوم بتقييم مجموعة بياناتنا حول مهمة تحليل المعنويات باستخدام تمثيلات التشفير الثنائية من المحولات (Bert) كطراز لغة سياقي في إصدارها متعدد اللغات (MBERT) كتقنية تضمين، ثم دمج MBERT مع الشبكة العصبية التنافسية (CNN) كمعقل.DataSet متاحة للجمهور.
On various Social Media platforms, people, tend to use the informal way to communicate, or write posts and comments: their local dialects. In Africa, more than 1500 dialects and languages exist. Particularly, Tunisians talk and write informally using Latin letters and numbers rather than Arabic ones. In this paper, we introduce a large common-crawl-based Tunisian Arabizi dialectal dataset dedicated for Sentiment Analysis. The dataset consists of a total of 100k comments (about movies, politic, sport, etc.) annotated manually by Tunisian native speakers as Positive, negative and Neutral. We evaluate our dataset on sentiment analysis task using the Bidirectional Encoder Representations from Transformers (BERT) as a contextual language model in its multilingual version (mBERT) as an embedding technique then combining mBERT with Convolutional Neural Network (CNN) as classifier. The dataset is publicly available.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نقترح مجموعة بيانات تحليل المعنويات المشروح مصنوعة من نصوص البنغالية المكتوبة بشكل غير رسمي.تضم هذه البيانات هذه البيانات تعليقات عامة على الأخبار ومقاطع الفيديو التي تم جمعها من وسائل التواصل الاجتماعي تغطي 13 مجالات مختلفة، بما في ذل
نقدم الأزواج، أول مجموعة بيانات عربية كبيرة من المطالبات التي تحدث بشكل طبيعي تم جمعها من 5 مواقع عربية للتحقق من الحقائق، على سبيل المثال، فات بايانو ومطبقة، وتغطي المطالبات التي تغطيها منذ عام 2016. تتكون DataSet لدينا من 6،121 مطالبة جنبا إلى جنب
يظهر التطوير الحديث في NLP اتجاها قويا نحو تكرير النماذج المدربة مسبقا مع مجموعة بيانات خاصة بالمجال. هذا هو الحال بشكل خاص لتوليد الاستجابة حيث تلعب العاطفة دورا مهما. ومع ذلك، لا تزال مجموعات البيانات المتعاطفية الحالية صغيرة وتأخير الجهود البحثية
تقدم هذه الورقة MediaSum، مجموعة بيانات مقابلة الوسائط على نطاق واسع تتكون من نصوص 463.6 كيلو بايت مع ملخصات إبتياج.لإنشاء هذه البيانات، نجمع مخالفات المقابلة من NPR و CNN وتوظيف نظرة عامة وأوصاف موضوع كملخصات.مقارنة مع الشركة العامة القائمة للحصول ع
اللغة العربية هي اللغة الرسمية البالغ 22 دولة، تحدث بأكثر من 400 مليون متحدث.تستخدم كل واحد من هذا البلد على الأقل لهجة محادثة الحياة اليومية.ثم، العربية لديها 22 لهجة على الأقل.يمكن كتابة كل لهجة في البرامج النصية العربية أو العربية.تركز أحدث الأبحا