ترغب بنشر مسار تعليمي؟ اضغط هنا

في هذا العمل، نقدم نهجنا ونتائجنا لمهمة Semeval-2021 للكشف عن الفقاعات السامة.كان الهدف الرئيسي للمهمة هو تحديد المواقيات التي يمكن أن تعزى سمية نص معين.المهمة تحديا أساسا بسبب قيود اثنين: مجموعة بيانات التدريب الصغيرة وتوزيع الفئة غير المتوازنة.تقوم ورقتنا بالتحقيق في تقنيين، وتعلم شبه إشراف وتعلم مع فقدان النرد ضبط النفس، لمعالجة هذه التحديات.يتألف نظامنا المقدم (المرتبة التاسعة على متن القائد) من مجموعة من مختلف نماذج اللغة المحولات المدربة مسبقا تدربت باستخدام أي من التقنيات المذكورة أعلاه.
مع توفر المعلومات الرقمية المتزايدة بشكل متزايد، فإن المحتوى السام هو أيضا في ارتفاع. لذلك، فإن اكتشاف هذا النوع من اللغة له أهمية قصوى. نتعامل مع هذه المشكلة باستخدام مجموعة من نموذج اللغة المدربة مسبقا من أحدث (ManalBert) وتقنية حقيبة من الكلمات ال تقليدية. نظرا لأن المحتوى مليء بالكلمات السامة التي لم تتم كتابتها وفقا لإملاء القاموس، فإن الحضور للشخصيات الفردية أمر بالغ الأهمية. لذلك، نستخدم ManalBerT لاستخراج الميزات بناء على أحرف كلمة. يتكون من وحدة LiftCNN التي تتعلم تضمين الأحرف من السياق. هذه هي، إذن، تغذيها بنية بيرت المعروفة. طريقة حقيبة الكلمات، من ناحية أخرى، تتحسن كذلك على ذلك بالتأكد من أن بعض الكلمات السامة المستخدمة في كثير من الأحيان تسمى وفقا لذلك. مع اختلاف ~4 في المئة من الفريق الأول، احتل نظامنا المرتبة 36 في المسابقة. يتوفر الكود لمزيد من البحث واستكمال النتائج.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا