UNIPARMA في مهمة Semeval-2021: الكشف عن المسيح السامة باستخدام Manalbert وحقيبة من الكلمات


الملخص بالعربية

مع توفر المعلومات الرقمية المتزايدة بشكل متزايد، فإن المحتوى السام هو أيضا في ارتفاع. لذلك، فإن اكتشاف هذا النوع من اللغة له أهمية قصوى. نتعامل مع هذه المشكلة باستخدام مجموعة من نموذج اللغة المدربة مسبقا من أحدث (ManalBert) وتقنية حقيبة من الكلمات التقليدية. نظرا لأن المحتوى مليء بالكلمات السامة التي لم تتم كتابتها وفقا لإملاء القاموس، فإن الحضور للشخصيات الفردية أمر بالغ الأهمية. لذلك، نستخدم ManalBerT لاستخراج الميزات بناء على أحرف كلمة. يتكون من وحدة LiftCNN التي تتعلم تضمين الأحرف من السياق. هذه هي، إذن، تغذيها بنية بيرت المعروفة. طريقة حقيبة الكلمات، من ناحية أخرى، تتحسن كذلك على ذلك بالتأكد من أن بعض الكلمات السامة المستخدمة في كثير من الأحيان تسمى وفقا لذلك. مع اختلاف ~4 في المئة من الفريق الأول، احتل نظامنا المرتبة 36 في المسابقة. يتوفر الكود لمزيد من البحث واستكمال النتائج.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث