اللغة المسيئة هي ظاهرة متزايدة على منصات وسائل التواصل الاجتماعي. يمكن أن تصل آثارها إلى ما بعد السياق عبر الإنترنت، والمساهمة في الضغط العقلي أو العاطفي على المستخدمين. يمكن للأدوات التلقائية للكشف عن سوء المعاملة تخفيف المشكلة. في الممارسة العملية، تعتمد تطوير طرق تلقائية للكشف عن لغة مسيئة على بيانات ذات نوعية جيدة. ومع ذلك، هناك حاليا نقص المعايير لإنشاء مجموعات البيانات في هذا المجال. وتشمل هذه المعايير تعريفات لما يعتبر لغة مسيئة وإرشادات التوضيحية والإبلاغ عن العملية. تقدم هذه الورقة إطارا شرحا مستوحى من المفاهيم القانونية لتحديد اللغة المسيئة في سياق المضايقات عبر الإنترنت. يستخدم الإطار مقياسا Likert 7 نقاط للوضع العلامات بدلا من التسميات الفئة. نحن نقود أيضا Alyt - مجموعة بيانات من لغة مسيئة على YouTube. يتضمن Alyt تعليقات YouTube باللغة الإنجليزية من مقاطع الفيديو حول موضوعات مختلفة مثيرة للجدل ومسمى طلاب القانون. تم أخذ عينات من التعليقات من البيانات التي تم جمعها فعليا، دون أساليب اصطناعية لزيادة المحتوى المسيء. تصف الورقة عملية التوضيحية بدقة، بما في ذلك جميع المبادئ التوجيهية وخطوات التدريب.