اللغة المسيئة هي ظاهرة متزايدة على منصات وسائل التواصل الاجتماعي. يمكن أن تصل آثارها إلى ما بعد السياق عبر الإنترنت، والمساهمة في الضغط العقلي أو العاطفي على المستخدمين. يمكن للأدوات التلقائية للكشف عن سوء المعاملة تخفيف المشكلة. في الممارسة العملية، تعتمد تطوير طرق تلقائية للكشف عن لغة مسيئة على بيانات ذات نوعية جيدة. ومع ذلك، هناك حاليا نقص المعايير لإنشاء مجموعات البيانات في هذا المجال. وتشمل هذه المعايير تعريفات لما يعتبر لغة مسيئة وإرشادات التوضيحية والإبلاغ عن العملية. تقدم هذه الورقة إطارا شرحا مستوحى من المفاهيم القانونية لتحديد اللغة المسيئة في سياق المضايقات عبر الإنترنت. يستخدم الإطار مقياسا Likert 7 نقاط للوضع العلامات بدلا من التسميات الفئة. نحن نقود أيضا Alyt - مجموعة بيانات من لغة مسيئة على YouTube. يتضمن Alyt تعليقات YouTube باللغة الإنجليزية من مقاطع الفيديو حول موضوعات مختلفة مثيرة للجدل ومسمى طلاب القانون. تم أخذ عينات من التعليقات من البيانات التي تم جمعها فعليا، دون أساليب اصطناعية لزيادة المحتوى المسيء. تصف الورقة عملية التوضيحية بدقة، بما في ذلك جميع المبادئ التوجيهية وخطوات التدريب.
Abusive language is a growing phenomenon on social media platforms. Its effects can reach beyond the online context, contributing to mental or emotional stress on users. Automatic tools for detecting abuse can alleviate the issue. In practice, developing automated methods to detect abusive language relies on good quality data. However, there is currently a lack of standards for creating datasets in the field. These standards include definitions of what is considered abusive language, annotation guidelines and reporting on the process. This paper introduces an annotation framework inspired by legal concepts to define abusive language in the context of online harassment. The framework uses a 7-point Likert scale for labelling instead of class labels. We also present ALYT -- a dataset of Abusive Language on YouTube. ALYT includes YouTube comments in English extracted from videos on different controversial topics and labelled by Law students. The comments were sampled from the actual collected data, without artificial methods for increasing the abusive content. The paper describes the annotation process thoroughly, including all its guidelines and training steps.
References used
https://aclanthology.org/
This paper describes the Helsinki--Ljubljana contribution to the VarDial 2021 shared task on social media variety geolocation. Following our successful participation at VarDial 2020, we again propose constrained and unconstrained systems based on the
Social media texts such as blog posts, comments, and tweets often contain offensive languages including racial hate speech comments, personal attacks, and sexual harassment. Detecting inappropriate use of language is, therefore, of utmost importance
Cross-language authorship attribution is the challenging task of classifying documents by bilingual authors where the training documents are written in a different language than the evaluation documents. Traditional solutions rely on either translati
The framing of political issues can influence policy and public opinion. Even though the public plays a key role in creating and spreading frames, little is known about how ordinary people on social media frame political issues. By creating a new dat
In this paper we study pejorative language, an under-explored topic in computational linguistics. Unlike existing models of offensive language and hate speech, pejorative language manifests itself primarily at the lexical level, and describes a word