ترغب بنشر مسار تعليمي؟ اضغط هنا

في هذه الورقة، نقترح مجموعة بيانات تحليل المعنويات المشروح مصنوعة من نصوص البنغالية المكتوبة بشكل غير رسمي.تضم هذه البيانات هذه البيانات تعليقات عامة على الأخبار ومقاطع الفيديو التي تم جمعها من وسائل التواصل الاجتماعي تغطي 13 مجالات مختلفة، بما في ذل ك السياسة والتعليم والزراعة.يتم تصنيف هذه التعليقات بأحد الملصقات القطبية، وهي إيجابية، سلبية، محايدة.واحدة من الخصائص المهمة من مجموعة البيانات هي أن كل من التعليقات صاخبة من حيث مزيج من اللهجات والتصميم النحوي.تظهر تجاربنا لتطوير نظام تصنيف معيار أن الميزات المعجمية المصنوعة يدويا توفر أداء فائقا من الشبكة العصبية ونماذج اللغة المحددة مسبقا.لقد جعلنا مجموعة البيانات والرسوم المصاحبة المقدمة في هذه الورقة متاحة للجمهور في https://git.io/juunb.
البنغالية هي لغة موارد منخفضة تفتقر إلى الأدوات والموارد الخاصة بالكشف عن المحتوى النصي النصي والفاحش.حتى الآن، لا يوجد معجم لكشف الفاحش في نص وسائل الإعلام الاجتماعية البنغالية.تقدم هذه الدراسة معجم بنغالي فاحشين يتكون من أكثر من 200 مصطلحات بنغالية ، والتي يمكن اعتبارها قذرة أو عامية صلبة أو فاحشة أو فاحشة.يتم تقديم منهجية شبه أوتوماتيكية لتطوير المعجم الملحق الذي يهدف إلى تطور كائنات فاحشة وكلمة تضمين وكالة الكلام (POS).يحقق المعجم المطور تغطية حوالي 0.85 للكشف عن المحتوى الفاحش والمحتوى في مجموعة بيانات التقييم.تنطوي النتائج التجريبية على أن المعجم المطور فعال في تحديد الفحش في محتوى بنغالي وسائل التواصل الاجتماعي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا