يمكن للإيذاء عبر الإنترنت إلحاق الأذى بالمستخدمين والمجتمعات، مما يجعل المساحات عبر الإنترنت غير آمنة وسامة.غالبا ما يتم احتساب التقدم المحرز في الكشف عن المحتوى المسيء والتصنيف تلقائيا بسبب عدم وجود مجموعات بيانات عالية الجودة ومفصلة. نقدم مجموعة بيانات جديدة من إدخالات Reddit الإنجليزية في المقام الأول والتي تعالج عدة قيود على العمل السابق.يحتوي ذلك (1) على ست فئات أساسية مميزة من الناحية الناحية الفنية وكذلك الفئات الثانوية، (2) يحتوي على تسميات مشروحة في سياق مؤشر ترابط المحادثة، (3) تحتوي (3) على المناولة و (4) تستخدم عملية تحكم مجموعة مدفوعة من الخبراء عاليةالتوضيحية الجودة.نبلغ عن العديد من النماذج الأساسية لقياس عمل الباحثين في المستقبل.البيانات الموحدة والمبادئ التوجيهية التوضيحية والنماذج والرمز متاحة بحرية.
Online abuse can inflict harm on users and communities, making online spaces unsafe and toxic. Progress in automatically detecting and classifying abusive content is often held back by the lack of high quality and detailed datasets.We introduce a new dataset of primarily English Reddit entries which addresses several limitations of prior work. It (1) contains six conceptually distinct primary categories as well as secondary categories, (2) has labels annotated in the context of the conversation thread, (3) contains rationales and (4) uses an expert-driven group-adjudication process for high quality annotations. We report several baseline models to benchmark the work of future researchers. The annotated dataset, annotation guidelines, models and code are freely available.
المراجع المستخدمة
https://aclanthology.org/
على مختلف منصات وسائل التواصل الاجتماعي، يميل الناس، إلى استخدام الطريقة غير الرسمية للتواصل، أو كتابة المشاركات والتعليقات: لهجاتهم المحلية.في أفريقيا، توجد أكثر من 1500 لغة ولغات.لا سيما، يتحدث التونسيون والكتابة بشكل غير رسمي باستخدام الحروف والأر
نقدم مجموعة اختبار Swewinogender، مجموعة بيانات تشخيصية لقياس التحيز بين الجنسين في دقة Aquerence.وهي على غرارها بعد المعيار الإنجليزي الإنجليزي، ويتم إصدارها مع إحصاءات مرجعية بشأن توزيع الرجال والنساء بين المهن والشكام بين الجنسين والاحتلال في مواد
تقدم هذه الدراسة نسخة مخصبة من DataSet E2E، وهي واحدة من موارد اللغة الأكثر شعبية ل NLG البيانات إلى النص.نحن نستخلص من التمثيل الوسيط لمهام خطوط الأنابيب الشعبية مثل ترتيب الخطاب، وهيكال نصية، وتعليم التعبير وإشارة التعبير،، مما يتيح الباحثين على تط
إن إدخال طلاب المعلوماتيين الطبية الحيوية (BMI) للمعالجة اللغوية الطبيعية (NLP) يتطلب موازنة العمق الفني مع المعرفة العملية لمعالجة الاحتياجات التي تركز على التطبيق.قمنا بتطوير مجموعة من ثلاثة أنشطة إدخال طلاب BMI تمهيدي لاسترجاع المعلومات مع NLP، وا
تحسنت جودة الترجمات التي تم إنشاؤها بواسطة أنظمة الترجمة الآلية (MT) بشكل كبير خلال السنوات، لكننا لا نزال بعيدا للحصول على ترجمات عالية الجودة التلقائية بالكامل.لتوليدهم والمترجمين يستفيدون من أدوات الترجمة المساعدة بمساعدة الكمبيوتر وبينها نجد أنظم