ترغب بنشر مسار تعليمي؟ اضغط هنا

يتم تعريف مهمة الكشف عن الفقاعات السامة (TSD) على أنها تسليط الضوء على يمتد يمتد النص السام.تم إجراء العديد من الأعمال لتصنيف تعليق أو وثيقة معينة على أنها سامة أو غير سامة.ومع ذلك، لا تعمل أي من هذه النماذج المقترحة على مستوى الرمز المميز.في هذه الو رقة، نقترح وحدة متكررة ثنائية الاهتمام بالانتباه (BIGRU) مع تمثيل متعدد التضمين للرموز.يثري نموذجنا المقترح التمثيل بمزيج من GPT-2، قفاز، و Aroperta Ageddings، مما أدى إلى نتائج واعدة.تظهر النتائج التجريبية أن نهجنا المقترح فعال للغاية في الكشف عن الرموز المميزة.
في هذه الورقة، نصف نظامنا المستخدمة في مهمة Semeval 2021 5: الكشف عن الأمور السامة.ينتهك نظامنا المقترح من مشكلة مهمة تصنيف رمزية.قمنا بتدريب نموذجنا للعثور على كلمات سامة وتسلسل يمتد إلى التنبؤ باليوفق السام في غضون جملة.نحن نطبات نماذج اللغة المدرب ة مسبقا (PLMS) لتحديد الكلمات السامة.بالنسبة للضبط الدقيق، كدغ طبقة التصنيف أعلى ميزات PLM لكل كلمة لتصنيفها إذا كانت سامة أم لا.يتم تدريب PLMS مسبقا على استخدام أهداف مختلفة وقد يختلف أدائها في مهام المصب.لذلك، قارن أداء بيرت، Electra، روبرتا، XLM-ROBERTA، T5، XLNET، و MPNET لتحديد المواقف السامة في غضون جملة.أفضل نظام أداء لدينا يستخدم روبرتا.أداء جيدا، وتحقيق درجة F1 من 0.6841 وتأمين مرتبة 16 على المتصدرين الرسميين.
تقدم هذه الورقة التقديم الخاص بنا إلى مهمة Semeval-2021 5: الكشف عن الأمور السامة.الغرض من هذه المهمة هو اكتشاف المواقف التي تجعل النص ساما، وهو عمل معقد لعدة أسباب.أولا، بسبب الذاتية الجوهرية للسمية، وثانيا، بسبب السمية لا تأتي دائما من كلمات مفردة مثل الإهانات أو التمثيل، ولكن في بعض الأحيان من التعبيرات بأكملها تشكلت بكلمات قد لا تكون سامة بشكل فردي.بعد هذه الفكرة التركيز على كل من الكلمات المفردة وتعبيرات متعددة الكلمة، ندرس تأثير استخدام نموذج مستعمل متعدد العميم، والذي يستخدم embeddings من طبقات مختلفة لتقدير السمية النهائية لكل رمزية.تظهر النتائج الكمية لدينا أن استخدام المعلومات من أعماق متعددة يعزز أداء النموذج.أخيرا، نقوم أيضا بتحليل أفضل نموذج لدينا نوعيا.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا