Let-Mi: مجموعة بيانات Twitter العربية ل Leavantine لغوي كراهية


الملخص بالعربية

أصبح على الإنترنت على الإنترنت مصدر قلق متزايد للنساء العربيات الذين يعانون من سوء المعاملة على الإنترنت على أساس الجنس على أساس يومي. يمكن أن تساعد أنظمة الكشف الأوتوماتيكية في كراثيلي في حظر المحتوى السام العربي للمرأة. يتم إعاقة تطوير هذه النظم من خلال عدم وجود مجموعات البيانات العربية القياسية. في هذه الورقة، نقدم مجموعة بيانات Twitter العربية ل Leavantine للغة الكهثرية (LET-MI) ليكون أول مجموعة بيانات معيار للكريساني. نوفر كذلك مراجعة تفصيلية لخلق البيانات ومراحل التوضيحية. تم التأكيد على اتساق التوضيحية الخاصة ب DataSet المقترحة من خلال تدابير تقييم الاتفاقية بين الخصوصية. علاوة على ذلك، تم استخدام دعونا كمادة بيانات تقييم من خلال مهام التصنيف الثنائية / متعددة المستهدفة التي أجرتها العديد من أنظمة تعلم الآلات ذات الجهاز من خلال تكوين التعلم المتعدد المهام (MTL). أشارت النتائج التي تم الحصول عليها إلى أن العروض التي حققتها النظم المستخدمة تتسق مع النتائج الحديثة لغات أخرى غير اللغة العربية، أثناء توظيف MTL تحسن أداء مهام التصنيف الكبرى / الهدف.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث