يمكن للإيذاء عبر الإنترنت إلحاق الأذى بالمستخدمين والمجتمعات، مما يجعل المساحات عبر الإنترنت غير آمنة وسامة.غالبا ما يتم احتساب التقدم المحرز في الكشف عن المحتوى المسيء والتصنيف تلقائيا بسبب عدم وجود مجموعات بيانات عالية الجودة ومفصلة. نقدم مجموعة بيانات جديدة من إدخالات Reddit الإنجليزية في المقام الأول والتي تعالج عدة قيود على العمل السابق.يحتوي ذلك (1) على ست فئات أساسية مميزة من الناحية الناحية الفنية وكذلك الفئات الثانوية، (2) يحتوي على تسميات مشروحة في سياق مؤشر ترابط المحادثة، (3) تحتوي (3) على المناولة و (4) تستخدم عملية تحكم مجموعة مدفوعة من الخبراء عاليةالتوضيحية الجودة.نبلغ عن العديد من النماذج الأساسية لقياس عمل الباحثين في المستقبل.البيانات الموحدة والمبادئ التوجيهية التوضيحية والنماذج والرمز متاحة بحرية.
Online abuse can inflict harm on users and communities, making online spaces unsafe and toxic. Progress in automatically detecting and classifying abusive content is often held back by the lack of high quality and detailed datasets.We introduce a new dataset of primarily English Reddit entries which addresses several limitations of prior work. It (1) contains six conceptually distinct primary categories as well as secondary categories, (2) has labels annotated in the context of the conversation thread, (3) contains rationales and (4) uses an expert-driven group-adjudication process for high quality annotations. We report several baseline models to benchmark the work of future researchers. The annotated dataset, annotation guidelines, models and code are freely available.
References used
https://aclanthology.org/
On various Social Media platforms, people, tend to use the informal way to communicate, or write posts and comments: their local dialects. In Africa, more than 1500 dialects and languages exist. Particularly, Tunisians talk and write informally using
We introduce the SweWinogender test set, a diagnostic dataset to measure gender bias in coreference resolution. It is modelled after the English Winogender benchmark, and is released with reference statistics on the distribution of men and women betw
This study introduces an enriched version of the E2E dataset, one of the most popular language resources for data-to-text NLG. We extract intermediate representations for popular pipeline tasks such as discourse ordering, text structuring, lexicaliza
Introducing biomedical informatics (BMI) students to natural language processing (NLP) requires balancing technical depth with practical know-how to address application-focused needs. We developed a set of three activities introducing introductory BM
The quality of the translations generated by Machine Translation (MT) systems has highly improved through the years and but we are still far away to obtain fully automatic high-quality translations. To generate them and translators make use of Comput