اللغة المسيئة هي ظاهرة متزايدة على منصات وسائل التواصل الاجتماعي. يمكن أن تصل آثارها إلى ما بعد السياق عبر الإنترنت، والمساهمة في الضغط العقلي أو العاطفي على المستخدمين. يمكن للأدوات التلقائية للكشف عن سوء المعاملة تخفيف المشكلة. في الممارسة العملية، تعتمد تطوير طرق تلقائية للكشف عن لغة مسيئة على بيانات ذات نوعية جيدة. ومع ذلك، هناك حاليا نقص المعايير لإنشاء مجموعات البيانات في هذا المجال. وتشمل هذه المعايير تعريفات لما يعتبر لغة مسيئة وإرشادات التوضيحية والإبلاغ عن العملية. تقدم هذه الورقة إطارا شرحا مستوحى من المفاهيم القانونية لتحديد اللغة المسيئة في سياق المضايقات عبر الإنترنت. يستخدم الإطار مقياسا Likert 7 نقاط للوضع العلامات بدلا من التسميات الفئة. نحن نقود أيضا Alyt - مجموعة بيانات من لغة مسيئة على YouTube. يتضمن Alyt تعليقات YouTube باللغة الإنجليزية من مقاطع الفيديو حول موضوعات مختلفة مثيرة للجدل ومسمى طلاب القانون. تم أخذ عينات من التعليقات من البيانات التي تم جمعها فعليا، دون أساليب اصطناعية لزيادة المحتوى المسيء. تصف الورقة عملية التوضيحية بدقة، بما في ذلك جميع المبادئ التوجيهية وخطوات التدريب.
Abusive language is a growing phenomenon on social media platforms. Its effects can reach beyond the online context, contributing to mental or emotional stress on users. Automatic tools for detecting abuse can alleviate the issue. In practice, developing automated methods to detect abusive language relies on good quality data. However, there is currently a lack of standards for creating datasets in the field. These standards include definitions of what is considered abusive language, annotation guidelines and reporting on the process. This paper introduces an annotation framework inspired by legal concepts to define abusive language in the context of online harassment. The framework uses a 7-point Likert scale for labelling instead of class labels. We also present ALYT -- a dataset of Abusive Language on YouTube. ALYT includes YouTube comments in English extracted from videos on different controversial topics and labelled by Law students. The comments were sampled from the actual collected data, without artificial methods for increasing the abusive content. The paper describes the annotation process thoroughly, including all its guidelines and training steps.
المراجع المستخدمة
https://aclanthology.org/
تصف هذه الورقة مساهمة Helsinki - Ljubljana المهمة المشتركة في عام 2021 في مجال تحديد الموقع الجغرافي للوسائط الجغرافية الاجتماعية.بعد مشاركتنا الناجحة في 32020، اقترحنا مرة أخرى أنظمة مقيدة وغير مقيدة بناء على بنية بيرت.في هذه الورقة، نقوم بالإبلاغ ع
غالبا ما تحتوي نصوص وسائل التواصل الاجتماعي مثل منشورات المدونة والتعليقات والتغريدات بلغات هجومية بما في ذلك تعليقات خطاب الكراهية العنصرية والهجمات الشخصية والتحرش الجنسي.لذلك اكتشاف الاستخدام غير المناسب للغة هو أهمية قصوى لسلامة المستخدمين وكذلك
إسناد التأليف المتبادل هو المهمة الصعبة المتمثلة في تصنيف المستندات من قبل المؤلفين ثنائي اللغة حيث تتم كتابة وثائق التدريب بلغة مختلفة عن وثائق التقييم. تعتمد الحلول التقليدية على أي ترجمة لتمكين استخدام ميزات اللغة الواحدة أو طرق استخراج الميزات ال
يمكن أن تؤثر تأطير القضايا السياسية على السياسة والرأي العام.على الرغم من أن الجمهور يلعب دورا رئيسيا في إنشاء وإلقاء الإطارات، إلا أن القليل يعرف عن كيفية القضايا السياسية للأشخاص العاديين في إطار وسائل الإعلام الاجتماعية.من خلال إنشاء مجموعة بيانات
في هذه الورقة ندرس لغة Pejorative، موضوعا غير متوقع في اللغويات الحسابية.على عكس النماذج الحالية من اللغة الهجومية وكلاب الكراهية، تظهر لغة Pejorative نفسها في المقام الأول على المستوى المعجمي، وتوضح كلمة تستخدم مع دلالة سلبية، مما يجعلها مختلفة عن ا