تعتبر إساءة استخدام الإنترنت مشكلة مجتمعية مهمة في عصرنا. يواجه ملايين مستخدمي الإنترنت المضايقات والعنصرية والهجمات الشخصية وأنواع أخرى من سوء المعاملة عبر مختلف المنصات. يمكن أن تكون الآثار النفسية للإيذاء على الأفراد عميقة ودائمة. وبالتالي، خلال السنوات القليلة الماضية، كان هناك جهد بحثي كبير نحو الكشف الآلي للكشف عن اللغة المسيئة في مجال NLP. في ورقة الموضع هذه، نناقش الدور الذي يلعبه نمذجة المستخدمين والمجتمعات عبر الإنترنت في اكتشاف إساءة الاستخدام. على وجه التحديد، نقوم بمراجعة وتحليل حالة الأساليب الفنية التي ترفض معلومات المستخدم أو المجتمع لتعزيز فهم اللغة والكشف عن اللغة المسيئة. ثم نستكشف التحديات الأخلاقية المتمثلة في دمج معلومات المستخدم والمجتمع، ووضع اعتبارات لتوجيه البحوث المستقبلية. أخيرا، نتعلم موضوع الشرح في الكشف عن اللغة المسيئة، واقتراح خصائص يجب أن تهدف طريقة تفسير إلى إظهارها. نحن تصف كيف يمكن للمستخدم والمعلومات المجتمعية تسهيل تحقيق هذه الخصائص ومناقشة التشغيل الفعال للتفسير في ضوء العقارات.
Abuse on the Internet is an important societal problem of our time. Millions of Internet users face harassment, racism, personal attacks, and other types of abuse across various platforms. The psychological effects of abuse on individuals can be profound and lasting. Consequently, over the past few years, there has been a substantial research effort towards automated abusive language detection in the field of NLP. In this position paper, we discuss the role that modeling of users and online communities plays in abuse detection. Specifically, we review and analyze the state of the art methods that leverage user or community information to enhance the understanding and detection of abusive language. We then explore the ethical challenges of incorporating user and community information, laying out considerations to guide future research. Finally, we address the topic of explainability in abusive language detection, proposing properties that an explainable method should aim to exhibit. We describe how user and community information can facilitate the realization of these properties and discuss the effective operationalization of explainability in view of the properties.
References used
https://aclanthology.org/
Online abuse and offensive language on social media have become widespread problems in today's digital age. In this paper, we contribute a Reddit-based dataset, consisting of 68,159 insults and 51,102 compliments targeted at individuals instead of ta
In this paper, we introduce a new English Twitter-based dataset for cyberbullying detection and online abuse. Comprising 62,587 tweets, this dataset was sourced from Twitter using specific query terms designed to retrieve tweets with high probabiliti
People utilize online forums to either look for information or to contribute it. Because of their growing popularity, certain online forums have been created specifically to provide support, assistance, and opinions for people suffering from mental i
It is generally agreed upon in the natural language processing (NLP) community that ethics should be integrated into any curriculum. Being aware of and understanding the relevant core concepts is a prerequisite for following and participating in the
We present the first annotated corpus for multilingual analysis of potentially unfair clauses in online Terms of Service. The data set comprises a total of 100 contracts, obtained from 25 documents annotated in four different languages: English, Germ