ترغب بنشر مسار تعليمي؟ اضغط هنا

تقديم مجموعة بيانات تونسية كبيرة تونسية لتحليل المعنويات

Introducing A large Tunisian Arabizi Dialectal Dataset for Sentiment Analysis

124   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

على مختلف منصات وسائل التواصل الاجتماعي، يميل الناس، إلى استخدام الطريقة غير الرسمية للتواصل، أو كتابة المشاركات والتعليقات: لهجاتهم المحلية.في أفريقيا، توجد أكثر من 1500 لغة ولغات.لا سيما، يتحدث التونسيون والكتابة بشكل غير رسمي باستخدام الحروف والأرقام اللاتينية بدلا من تلك العربية.في هذه الورقة، نقدم مجموعة بيانات تونسية تونسية تونسية كبيرة ومقرها شائعة مخصصة لتحليل المعنويات.تتكون DataSet من إجمالي التعليقات 100K (عن الأفلام والسياسة والرياضة، إلخ) المشروح يدويا من قبل المتكلمين الأصليين التونسيين على أنها إيجابية وسلبية ومحايدة.نقوم بتقييم مجموعة بياناتنا حول مهمة تحليل المعنويات باستخدام تمثيلات التشفير الثنائية من المحولات (Bert) كطراز لغة سياقي في إصدارها متعدد اللغات (MBERT) كتقنية تضمين، ثم دمج MBERT مع الشبكة العصبية التنافسية (CNN) كمعقل.DataSet متاحة للجمهور.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقترح مجموعة بيانات تحليل المعنويات المشروح مصنوعة من نصوص البنغالية المكتوبة بشكل غير رسمي.تضم هذه البيانات هذه البيانات تعليقات عامة على الأخبار ومقاطع الفيديو التي تم جمعها من وسائل التواصل الاجتماعي تغطي 13 مجالات مختلفة، بما في ذل ك السياسة والتعليم والزراعة.يتم تصنيف هذه التعليقات بأحد الملصقات القطبية، وهي إيجابية، سلبية، محايدة.واحدة من الخصائص المهمة من مجموعة البيانات هي أن كل من التعليقات صاخبة من حيث مزيج من اللهجات والتصميم النحوي.تظهر تجاربنا لتطوير نظام تصنيف معيار أن الميزات المعجمية المصنوعة يدويا توفر أداء فائقا من الشبكة العصبية ونماذج اللغة المحددة مسبقا.لقد جعلنا مجموعة البيانات والرسوم المصاحبة المقدمة في هذه الورقة متاحة للجمهور في https://git.io/juunb.
نقدم الأزواج، أول مجموعة بيانات عربية كبيرة من المطالبات التي تحدث بشكل طبيعي تم جمعها من 5 مواقع عربية للتحقق من الحقائق، على سبيل المثال، فات بايانو ومطبقة، وتغطي المطالبات التي تغطيها منذ عام 2016. تتكون DataSet لدينا من 6،121 مطالبة جنبا إلى جنب مع ملصقاتها الواقعية والبيانات الوصفية الإضافية، مثلمع تحديد محتوى المقال عن الواقع، فئة موضحة، وروابط للمشاركات أو صفحات الويب نشر المطالبة.نظرا لأن البيانات يتم الحصول عليها من مختلف مواقع التحقق من الحقائق، فإننا نقوم بتوحيد ملصقات المطالبة الأصلية لتوفير تصنيف ملصقات موحدة لجميع المطالبات.علاوة على ذلك، نحن نقدم إحصاءات البيانات الكاشفة وتحفيز استخدامها من خلال اقتراح تطبيقات بحثية محتملة.يتم توفير مجموعة البيانات للجمهور لمجتمع البحث.
يظهر التطوير الحديث في NLP اتجاها قويا نحو تكرير النماذج المدربة مسبقا مع مجموعة بيانات خاصة بالمجال. هذا هو الحال بشكل خاص لتوليد الاستجابة حيث تلعب العاطفة دورا مهما. ومع ذلك، لا تزال مجموعات البيانات المتعاطفية الحالية صغيرة وتأخير الجهود البحثية في هذا المجال، على سبيل المثال، تطوير Chatement-Aware Chatbots. كان التحدي الفني الرئيسي واحد هو تكلفة التسجيل يدويا الحوارات مع ملصقات العاطفة المناسبة. في هذه الورقة، نصف مجموعة بيانات فضية واسعة النطاق تتكون من حوارات من 1M المشروح ب 32 عواطف دقيقة، وثمانية نوايا استجابة متعاطفية، والفئة المحايدة. لتحقيق هذا الهدف، قمنا بتطوير خط أنابيب لجنة البيانات الرواية بدءا من بذرة صغيرة من البيانات المشروحة يدويا وتوسيع نطاقها في نهاية المطاف إلى حجم مرض. قمنا بمقارنة جودةها مقابل مجموعة بيانات ذهبية أحدث باستخدام كل من التجارب دون اتصال وطرائق التحقق من الصحة. يمكن استخدام الإجراء الناتج لإنشاء مجموعات بيانات مماثلة في نفس المجال وكذلك في المجالات الأخرى.
تقدم هذه الورقة MediaSum، مجموعة بيانات مقابلة الوسائط على نطاق واسع تتكون من نصوص 463.6 كيلو بايت مع ملخصات إبتياج.لإنشاء هذه البيانات، نجمع مخالفات المقابلة من NPR و CNN وتوظيف نظرة عامة وأوصاف موضوع كملخصات.مقارنة مع الشركة العامة القائمة للحصول ع لى تلخيص الحوار، فإن DataSet لدينا هي أمر من حيث الحجم ويحتوي على محادثات متعددة الأحزاب المعقدة من مجالات متعددة.نقوم بإجراء تحليل إحصائي لإظهار التحيز الموضعي الفريد المعروض في نصوص المقابلات التلفزيونية والإذاعية.نظهر أيضا أن MediaSum يمكن استخدامه في تعلم التعلم لتحسين أداء نموذج على مهام تلخيص حوار أخرى.
اللغة العربية هي اللغة الرسمية البالغ 22 دولة، تحدث بأكثر من 400 مليون متحدث.تستخدم كل واحد من هذا البلد على الأقل لهجة محادثة الحياة اليومية.ثم، العربية لديها 22 لهجة على الأقل.يمكن كتابة كل لهجة في البرامج النصية العربية أو العربية.تركز أحدث الأبحا ث على بناء نموذج لغة وجزعة تدريب لكل لهجة، في كل برنامج نصي.بعد هذه التقنية تعني إنشاء 46 موارد مختلفة (بما في ذلك اللغة العربية القياسية الحديثة، MSA) للتعامل مع لغة واحدة فقط.في هذه الورقة، استخرفنا مجموعة واحدة، ونقترح خوارزمية واحدة لإنشاء كائن تدريب واحد تلقائيا باستخدام بنية نموذج تصنيف واحد لتحليل المعنويات MSA ولهجات مختلفة.بعد مراجعة كوربوس التدريب يدويا، تتفوق النتائج التي تم الحصول عليها جميع نتائج الأدب البحثية ل Test Test Corpora.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا