غالبا ما تحتوي نصوص وسائل التواصل الاجتماعي مثل منشورات المدونة والتعليقات والتغريدات بلغات هجومية بما في ذلك تعليقات خطاب الكراهية العنصرية والهجمات الشخصية والتحرش الجنسي.لذلك اكتشاف الاستخدام غير المناسب للغة هو أهمية قصوى لسلامة المستخدمين وكذلك لقمع السلوك البغيض والعدوان.الأساليب الحالية لهذه المشكلة متاحة في الغالب لغات غنية بالموارد مثل الإنجليزية والألمانية.في هذه الورقة، نميز اللغة المسيئة في النيبالية، وهي لغة موارد منخفضة، تسليط الضوء على التحديات التي يجب معالجتها لمعالجة نص وسائل الإعلام الاجتماعية النيبالية.نقدم أيضا تجارب للكشف عن اللغة المسيئة باستخدام تعلم الآلات الخاضعة للإشراف.إلى جانب المساهمة في أول مناهج خط الأساس في الكشف عن اللغة الهجومية في النيبالية، نطلق أيضا على مجموعات البيانات المشروح البشرية لتشجيع البحث في المستقبل على هذا الموضوع الحاسم.
Social media texts such as blog posts, comments, and tweets often contain offensive languages including racial hate speech comments, personal attacks, and sexual harassment. Detecting inappropriate use of language is, therefore, of utmost importance for the safety of the users as well as for suppressing hateful conduct and aggression. Existing approaches to this problem are mostly available for resource-rich languages such as English and German. In this paper, we characterize the offensive language in Nepali, a low-resource language, highlighting the challenges that need to be addressed for processing Nepali social media text. We also present experiments for detecting offensive language using supervised machine learning. Besides contributing the first baseline approaches of detecting offensive language in Nepali, we also release human annotated data sets to encourage future research on this crucial topic.
References used
https://aclanthology.org/
Sarcasm is a linguistic expression often used to communicate the opposite of what is said, usually something that is very unpleasant with an intention to insult or ridicule. Inherent ambiguity in sarcastic expressions makes sarcasm detection very dif
In this paper we study pejorative language, an under-explored topic in computational linguistics. Unlike existing models of offensive language and hate speech, pejorative language manifests itself primarily at the lexical level, and describes a word
Nowadays, there are a lot of advertisements hiding as normal posts or experience sharing in social media. There is little research of advertorial detection on Mandarin Chinese texts. This paper thus aimed to focus on hidden advertorial detection of o
This paper describes the entry of the research group SINAI at SMM4H's ProfNER task on the identification of professions and occupations in social media related with health. Specifically we have participated in Task 7a: Tweet Binary Classification to
The speech act of complaining is used by humans to communicate a negative mismatch between reality and expectations as a reaction to an unfavorable situation. Linguistic theory of pragmatics categorizes complaints into various severity levels based o