مع صعود البحث عن تصنيف التعليق السام، تم إصدار المزيد والمزيد من البيانات المشروحة. أدت مجموعة واسعة من المهمة (لغات مختلفة، وعمليات وصفات ومخططات مختلفة) إلى كمية كبيرة من مجموعات البيانات غير المتجانسة التي يمكن استخدامها للتدريب واختبار إعدادات محددة للغاية. على الرغم من الجهود الأخيرة لإنشاء صفحات ويب توفر نظرة عامة، فإن معظم المنشورات لا تزال تستخدم فقط مجموعة بيانات واحدة. لا يتم تخزينها في قاعدة بيانات مركزية واحدة، وتأتي في العديد من تنسيقات البيانات المختلفة، ومن الصعب تفسير ملصقات الفئة وكيفية إعادة استخدام هذه الملصقات في مشاريع أخرى. للتغلب على هذه المشكلات، نقدم مجموعة من أكثر من ثلاثين بيانات البيانات في شكل أداة برمجية تقوم بتجميع تنزيل البيانات ومعالجتها وتعرضها بتنسيق بيانات موحد يوفر أيضا تعيين من تسميات الفئة المتوافقة. ميزة أخرى من هذه الأداة هي أنها توفر نظرة عامة على خصائص مجموعات البيانات المتاحة، مثل اللغات المختلفة والمنصات والملصقات الفئة لتسهيل تحديد بيانات التدريب والاختبار المناسبة.
With the rise of research on toxic comment classification, more and more annotated datasets have been released. The wide variety of the task (different languages, different labeling processes and schemes) has led to a large amount of heterogeneous datasets that can be used for training and testing very specific settings. Despite recent efforts to create web pages that provide an overview, most publications still use only a single dataset. They are not stored in one central database, they come in many different data formats and it is difficult to interpret their class labels and how to reuse these labels in other projects. To overcome these issues, we present a collection of more than thirty datasets in the form of a software tool that automatizes downloading and processing of the data and presents them in a unified data format that also offers a mapping of compatible class labels. Another advantage of that tool is that it gives an overview of properties of available datasets, such as different languages, platforms, and class labels to make it easier to select suitable training and test data.
المراجع المستخدمة
https://aclanthology.org/
نبلغ عن تقديمنا إلى المهمة 1 من تحدي جيرفال 2021 - تصنيف التعليق السام.نحقق في طرق مختلفة لتعزيز البيانات التدريبية النادرة لتحسين الأداء النموذجي خارج الرف على مهمة تصنيف سامة للتعليق.للمساعدة في معالجة قيود مجموعة بيانات صغيرة، نستخدم البيانات التي
في وسائل التواصل الاجتماعي، يستخدم المستخدمون بشكل متكرر صور صغيرة تسمى الرموز التعبيرية في مشاركاتها. على الرغم من أن استخدام الرموز التعبيرية في النصوص يلعب دورا رئيسيا في أنظمة الاتصالات الحديثة، فقد تم إيلاء اهتمام أقل في مواقعهم في النصوص المعين
في هذا العمل، نقدم نهجنا على مهمة تصنيف التعليقات السامة (الفرعية 1) من المهمة المشتركة لجيرفال 2021.لهذه المهمة الثنائية، نقترح ثلاث نماذج: نموذج محول بيرت ألماني؛Perceptron متعدد الطبقات، التي تم تدريبها لأول مرة بالتوازي على الإدخال النصي و 14 ميز
غالبا ما يتم تحديد موكب النموذج إلى التحيز من خلال التعميم على مجموعات البيانات الخارجية المصممة بعناية.أساليب الدخل الحديثة في فهم اللغة الطبيعية (NLU) تحسين الأداء على مجموعات البيانات هذه عن طريق الضغط على النماذج في تحقيق تنبؤات غير متحيزة.الافتر
تتطلب المهام الفرعية لتصنيف النية، مثل التواضع على تحول التوزيع، والتكيف مع مجموعات المستخدمين المعينة والتخصيص، والكشف خارج المجال، ومجموعات بيانات واسعة ومرنة للتجارب والتقييم.نظرا لأن جمع مجموعات البيانات هذه هي الوقت والمستهلك للعمل، نقترح استخدا