ترغب بنشر مسار تعليمي؟ اضغط هنا

في هذا العمل، نقدم نهجنا على مهمة تصنيف التعليقات السامة (الفرعية 1) من المهمة المشتركة لجيرفال 2021.لهذه المهمة الثنائية، نقترح ثلاث نماذج: نموذج محول بيرت ألماني؛Perceptron متعدد الطبقات، التي تم تدريبها لأول مرة بالتوازي على الإدخال النصي و 14 ميز ات لغوية إضافية ثم تم تسليمها في طبقة إضافية؛ومثيرة الطبقات متعدد الطبقات مع كل من أنواع الميزات كمدخلات.عززنا النموذج المحول المدرب مسبقا من خلال إعادة تدريبه مع أكثر من مليون تغريدة وصقله على مجموعة بيانات ألمانية إضافية من مهام مماثلة.تم اتخاذ أنظمة بيرت الألمانية النهائية التي تم ضبطها بشكل نهائي كميزات مدخلات نصية لشبكاتنا العصبية.كانت أفضل النماذج الخاصة بنا في بيانات التحقق من الصحة كانت شبكات عصبية، لكن بيرت الألمانية المعززة المكتسبة مع درجة F1 = 0.5895 تنبؤ أعلى في بيانات الاختبار.
مع صعود البحث عن تصنيف التعليق السام، تم إصدار المزيد والمزيد من البيانات المشروحة. أدت مجموعة واسعة من المهمة (لغات مختلفة، وعمليات وصفات ومخططات مختلفة) إلى كمية كبيرة من مجموعات البيانات غير المتجانسة التي يمكن استخدامها للتدريب واختبار إعدادات مح ددة للغاية. على الرغم من الجهود الأخيرة لإنشاء صفحات ويب توفر نظرة عامة، فإن معظم المنشورات لا تزال تستخدم فقط مجموعة بيانات واحدة. لا يتم تخزينها في قاعدة بيانات مركزية واحدة، وتأتي في العديد من تنسيقات البيانات المختلفة، ومن الصعب تفسير ملصقات الفئة وكيفية إعادة استخدام هذه الملصقات في مشاريع أخرى. للتغلب على هذه المشكلات، نقدم مجموعة من أكثر من ثلاثين بيانات البيانات في شكل أداة برمجية تقوم بتجميع تنزيل البيانات ومعالجتها وتعرضها بتنسيق بيانات موحد يوفر أيضا تعيين من تسميات الفئة المتوافقة. ميزة أخرى من هذه الأداة هي أنها توفر نظرة عامة على خصائص مجموعات البيانات المتاحة، مثل اللغات المختلفة والمنصات والملصقات الفئة لتسهيل تحديد بيانات التدريب والاختبار المناسبة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا