حققت الطرز المستندة إلى المحولات مثل Bert و Xlnet و XLM-R أداء أحدث في مختلف مهام NLP بما في ذلك تحديد اللغة الهجومية وخطاب الكراهية، وهي مشكلة مهمة في وسائل التواصل الاجتماعي.في هذه الورقة، نقدم Fbert، إعادة تدريب نموذج BERT على الصلبة، أكبر كوربوس لتحديد اللغة الإنجليزية الهجومية المتاحة مع أكثر من 1.4 مليون حالة هجومية.نقيم أداء Fbert الخاص بتحديد المحتوى الهجومي على مجموعات بيانات باللغة الإنجليزية المتعددة ونختبر عدة عتبات لاختيار المثيلات من الصلبة.سيتم توفير نموذج FberT بحرية للمجتمع.
Transformer-based models such as BERT, XLNET, and XLM-R have achieved state-of-the-art performance across various NLP tasks including the identification of offensive language and hate speech, an important problem in social media. In this paper, we present fBERT, a BERT model retrained on SOLID, the largest English offensive language identification corpus available with over 1.4 million offensive instances. We evaluate fBERT's performance on identifying offensive content on multiple English datasets and we test several thresholds for selecting instances from SOLID. The fBERT model will be made freely available to the community.
المراجع المستخدمة
https://aclanthology.org/
في السنوات الأخيرة، أدى الاستخدام الواسع للوسائط الاجتماعية إلى زيادة في جيل من المحتوى السام والهجومي على المنصات عبر الإنترنت. استجابة، عملت منصات وسائل التواصل الاجتماعي على تطوير أساليب الكشف التلقائي وتوظيف المشرفين البشري للتعامل مع هذا الطوفان
في هذا العمل، نقوم بتحليل أداء وخصائص نماذج تضمين الكلمة المتبقية التي تم إنشاؤها بواسطة أساليب المحاذاة المستندة إلى تعيين الخرائط.نحن نستخدم العديد من التدابير الخاصة بالجور وضمان التشابه للتنبؤ بعشرات BLI من تعيينات تضمين التضمين عبر اللغات على ثل
في هذه الورقة، نقترح نموذجا طبيعيا عالميا لتحليل القواعد النحوية الخالية من السياق (CFG).بدلا من التنبؤ باحتمال، يتوقع نموذجنا درجة حقيقية في كل خطوة ولا تعاني من مشكلة تحيز التسمية.تظهر التجارب أن نهجنا تفوق النماذج الطبيعية محليا على مجموعات البيان
حقق المحول نجاحا كبيرا في مجال NLP من خلال تأليف نماذج متقدمة مختلفة مثل Bert و GPT. ومع ذلك، قد لا تكون المحول ومتغيراتها الحالية هي الأمثل في التقاط مسافات رمزية لأن الموضع أو المدينات المسافة التي تستخدمها هذه الأساليب عادة لا يمكن أن تبقي المعلوم
يهدف البحث إلى إلقاء الضوء على الخصائص المميزة لمشاريع إعادة الإعمار
و ادارتها، من خلال استبيان صمم لهذه الغاية، لمساعدة صانعي القرار على وضع
منهجيات حديثة لإدارة مشاريع إعادة الإعمار تأخذ بالاعتبار هذه الخصائص تبعا لدرجة
أهميتها.