أصبح على الإنترنت على الإنترنت مصدر قلق متزايد للنساء العربيات الذين يعانون من سوء المعاملة على الإنترنت على أساس الجنس على أساس يومي. يمكن أن تساعد أنظمة الكشف الأوتوماتيكية في كراثيلي في حظر المحتوى السام العربي للمرأة. يتم إعاقة تطوير هذه النظم من خلال عدم وجود مجموعات البيانات العربية القياسية. في هذه الورقة، نقدم مجموعة بيانات Twitter العربية ل Leavantine للغة الكهثرية (LET-MI) ليكون أول مجموعة بيانات معيار للكريساني. نوفر كذلك مراجعة تفصيلية لخلق البيانات ومراحل التوضيحية. تم التأكيد على اتساق التوضيحية الخاصة ب DataSet المقترحة من خلال تدابير تقييم الاتفاقية بين الخصوصية. علاوة على ذلك، تم استخدام دعونا كمادة بيانات تقييم من خلال مهام التصنيف الثنائية / متعددة المستهدفة التي أجرتها العديد من أنظمة تعلم الآلات ذات الجهاز من خلال تكوين التعلم المتعدد المهام (MTL). أشارت النتائج التي تم الحصول عليها إلى أن العروض التي حققتها النظم المستخدمة تتسق مع النتائج الحديثة لغات أخرى غير اللغة العربية، أثناء توظيف MTL تحسن أداء مهام التصنيف الكبرى / الهدف.
Online misogyny has become an increasing worry for Arab women who experience gender-based online abuse on a daily basis. Misogyny automatic detection systems can assist in the prohibition of anti-women Arabic toxic content. Developing such systems is hindered by the lack of the Arabic misogyny benchmark datasets. In this paper, we introduce an Arabic Levantine Twitter dataset for Misogynistic language (LeT-Mi) to be the first benchmark dataset for Arabic misogyny. We further provide a detailed review of the dataset creation and annotation phases. The consistency of the annotations for the proposed dataset was emphasized through inter-rater agreement evaluation measures. Moreover, Let-Mi was used as an evaluation dataset through binary/multi-/target classification tasks conducted by several state-of-the-art machine learning systems along with Multi-Task Learning (MTL) configuration. The obtained results indicated that the performances achieved by the used systems are consistent with state-of-the-art results for languages other than Arabic, while employing MTL improved the performance of the misogyny/target classification tasks.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نقدم مجموعة بيانات Arcov-19، وهي مجموعة بيانات عربية Covid-19 Twitter التي تمتد لمدة عام واحد، تغطي الفترة من 27 يناير 2020 حتى 31 يناير 2021. Arcov-19 هي أول مجموعة بيانات عربية تويتر العربية التي تغطي كوفي -19 الوباء يتضمن حوالي 2.7
تصف هذه الورقة عملية التوضيحية لبيانات لغة مسيئة محددة لرومانية على وسائل التواصل الاجتماعي.لتسهيل البحوث القابلة للمقارنة متعددة اللغات حول اللغة الهجومية، تتبع المبادئ التوجيهية التوضيحي بعض جهود التوضيح الحديثة لغات أخرى.يحتوي Corpus النهائي على 5
في هذه الورقة، نقدم مجموعة بيانات جديدة تستند إلى Twitter للكشف عن السيبراني وإساءة استخدام عبر الإنترنت.تضم هذه البيانات التي تضم 62،587 تغريدات، تم الحصول على هذه البيانات من تويتر باستخدام شروط استعلام محددة تهدف إلى استرداد تغريدات مع احتمالات عا
في هذه الورقة، نقدم شائعات ARCOV19، ومجموعة بيانات عربية Covid-19 Twitter للكشف عن المعلومات الخاطئة المؤلفة من تغريدات تحتوي على مطالبات من 27 يناير حتى نهاية أبريل 2020. قمنا بجمع 138 مطالبات تم التحقق منها، معظمها من مواقع التحقق من الحقائق الشعبي
عند قراءة قطعة أدبية، غالبا ما يصنع القراء استنتاجات حول أدوار الشخصيات والشخصيات والعلاقات والمهالية والإجراءات، وما إلى ذلك بينما يمكن للبشر السحب بسهولة على تجاربهم السابقة لبناء مثل هذه النظرة التي تركز على الطابع للسرد، فهم الشخصياتيمكن أن تكون