تكامل البيانات لتصنيف التعليق السام: جعل أكثر من 40 مجموعة بيانات يمكن الوصول إليها بسهولة بتنسيق واحد موحد


الملخص بالعربية

مع صعود البحث عن تصنيف التعليق السام، تم إصدار المزيد والمزيد من البيانات المشروحة. أدت مجموعة واسعة من المهمة (لغات مختلفة، وعمليات وصفات ومخططات مختلفة) إلى كمية كبيرة من مجموعات البيانات غير المتجانسة التي يمكن استخدامها للتدريب واختبار إعدادات محددة للغاية. على الرغم من الجهود الأخيرة لإنشاء صفحات ويب توفر نظرة عامة، فإن معظم المنشورات لا تزال تستخدم فقط مجموعة بيانات واحدة. لا يتم تخزينها في قاعدة بيانات مركزية واحدة، وتأتي في العديد من تنسيقات البيانات المختلفة، ومن الصعب تفسير ملصقات الفئة وكيفية إعادة استخدام هذه الملصقات في مشاريع أخرى. للتغلب على هذه المشكلات، نقدم مجموعة من أكثر من ثلاثين بيانات البيانات في شكل أداة برمجية تقوم بتجميع تنزيل البيانات ومعالجتها وتعرضها بتنسيق بيانات موحد يوفر أيضا تعيين من تسميات الفئة المتوافقة. ميزة أخرى من هذه الأداة هي أنها توفر نظرة عامة على خصائص مجموعات البيانات المتاحة، مثل اللغات المختلفة والمنصات والملصقات الفئة لتسهيل تحديد بيانات التدريب والاختبار المناسبة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث