مع صعود البحث عن تصنيف التعليق السام، تم إصدار المزيد والمزيد من البيانات المشروحة. أدت مجموعة واسعة من المهمة (لغات مختلفة، وعمليات وصفات ومخططات مختلفة) إلى كمية كبيرة من مجموعات البيانات غير المتجانسة التي يمكن استخدامها للتدريب واختبار إعدادات محددة للغاية. على الرغم من الجهود الأخيرة لإنشاء صفحات ويب توفر نظرة عامة، فإن معظم المنشورات لا تزال تستخدم فقط مجموعة بيانات واحدة. لا يتم تخزينها في قاعدة بيانات مركزية واحدة، وتأتي في العديد من تنسيقات البيانات المختلفة، ومن الصعب تفسير ملصقات الفئة وكيفية إعادة استخدام هذه الملصقات في مشاريع أخرى. للتغلب على هذه المشكلات، نقدم مجموعة من أكثر من ثلاثين بيانات البيانات في شكل أداة برمجية تقوم بتجميع تنزيل البيانات ومعالجتها وتعرضها بتنسيق بيانات موحد يوفر أيضا تعيين من تسميات الفئة المتوافقة. ميزة أخرى من هذه الأداة هي أنها توفر نظرة عامة على خصائص مجموعات البيانات المتاحة، مثل اللغات المختلفة والمنصات والملصقات الفئة لتسهيل تحديد بيانات التدريب والاختبار المناسبة.
With the rise of research on toxic comment classification, more and more annotated datasets have been released. The wide variety of the task (different languages, different labeling processes and schemes) has led to a large amount of heterogeneous datasets that can be used for training and testing very specific settings. Despite recent efforts to create web pages that provide an overview, most publications still use only a single dataset. They are not stored in one central database, they come in many different data formats and it is difficult to interpret their class labels and how to reuse these labels in other projects. To overcome these issues, we present a collection of more than thirty datasets in the form of a software tool that automatizes downloading and processing of the data and presents them in a unified data format that also offers a mapping of compatible class labels. Another advantage of that tool is that it gives an overview of properties of available datasets, such as different languages, platforms, and class labels to make it easier to select suitable training and test data.
References used
https://aclanthology.org/
We report on our submission to Task 1 of the GermEval 2021 challenge -- toxic comment classification. We investigate different ways of bolstering scarce training data to improve off-the-shelf model performance on a toxic comment classification task.
In the social media, users frequently use small images called emojis in their posts. Although using emojis in texts plays a key role in recent communication systems, less attention has been paid on their positions in the given texts, despite that use
In this work, we present our approaches on the toxic comment classification task (subtask 1) of the GermEval 2021 Shared Task. For this binary task, we propose three models: a German BERT transformer model; a multilayer perceptron, which was first tr
Model robustness to bias is often determined by the generalization on carefully designed out-of-distribution datasets. Recent debiasing methods in natural language understanding (NLU) improve performance on such datasets by pressuring models into mak
Sub-tasks of intent classification, such as robustness to distribution shift, adaptation to specific user groups and personalization, out-of-domain detection, require extensive and flexible datasets for experiments and evaluation. As collecting such