في هذه الورقة، نصف التجارب المصممة لتقييم تأثير الميزات المصنوعة من النسيج والعاطفة على الكشف عن الكلام الكراهية: مهمة تصنيف المحتوى النصي في فئات الكلام الكراهية أو غير الكراهية. تجري تجاربنا لمدة ثلاث لغات - اللغة الإنجليزية والسلوفين والهولندية - سواء في النطاق داخل المجال والمجازات، وتهدف إلى التحقيق في خطاب الكراهية باستخدام ميزات النموذجتين الظواهر اللغوية: أسلوب كتابة محتوى الوسائط الاجتماعية البغيضة تعمل كمستخدم Word كدالة على يد واحدة، وتعبير العاطفة في الرسائل البغيضة من ناحية أخرى. نتائج التجارب التي تحتوي على ميزات نموذج مجموعات مختلفة من هذه الظواهر تدعم فرضيتنا أن الميزات الأسيزية والعاطفية هي مؤشرات قوية لخطاب الكراهية. تظل مساهمتها مستمرة فيما يتعلق باختلاف المجال واللغة. نظظ أن مزيج من الميزات التي تتفوقت الظواهر المستهدفة على الكلمات والشخصيات N-Gram الميزات بموجب ظروف عبر المجال، وتوفر دفعة كبيرة لنماذج التعلم العميق، والتي تحصل حاليا على أفضل النتائج، عند دمجها في مجموعة واحدة وبعد
In this paper, we describe experiments designed to evaluate the impact of stylometric and emotion-based features on hate speech detection: the task of classifying textual content into hate or non-hate speech classes. Our experiments are conducted for three languages -- English, Slovene, and Dutch -- both in in-domain and cross-domain setups, and aim to investigate hate speech using features that model two linguistic phenomena: the writing style of hateful social media content operationalized as function word usage on the one hand, and emotion expression in hateful messages on the other hand. The results of experiments with features that model different combinations of these phenomena support our hypothesis that stylometric and emotion-based features are robust indicators of hate speech. Their contribution remains persistent with respect to domain and language variation. We show that the combination of features that model the targeted phenomena outperforms words and character n-gram features under cross-domain conditions, and provides a significant boost to deep learning models, which currently obtain the best results, when combined with them in an ensemble.
المراجع المستخدمة
https://aclanthology.org/
نحن نتطلع إلى مهمة اكتشاف الكلام الكراهية التلقائي لغات الموارد المنخفضة.بدلا من جمع وإشراف بيانات خطاب الكراهية الجديدة، نوضح كيفية استخدام التعلم عبر التحويلات عبر اللغات للاستفادة من البيانات الموجودة بالفعل من لغات الموارد العالية.باستخدام مصنفات
اكتشاف الكلام الكراهية هو مجال أبحاث بنشاط مع مجموعة متنوعة من الأساليب المقترحة مؤخرا التي سمحت بدفع النتائج الحديثة.واحدة من تحديات هذه الأساليب الآلية - وهي نماذج التعلم العميق الحديثة - خطر الإيجابيات الخاطئة (أي، اتهامات كاذبة)، والتي قد تؤدي إل
نقدم نظاما للصفر بالرصاص لغة هجومية عبر اللغات وتصنيف الكلام الكراهية.تم تدريب النظام على مجموعات البيانات الإنجليزية واختباره في مهمة اكتشاف محتوى خطاب الكراهية والوسائط الاجتماعية الهجومية في عدد من اللغات دون أي تدريب إضافي.تظهر التجارب قدرة رائعة
تقلص نهج التحيز مع اعتماد النماذج على ميزات البيانات الحساسة للبيانات، مثل رموز المجموعة الاجتماعية (SGTS)، مما يؤدي إلى تنبؤات متساوية عبر الميزات الحساسة.ومع ذلك، في الكشف عن الكلام الكراهية، قد يتجاهل تكالير التعادل النموذجي الاختلافات المهمة بين
في هذه الورقة نعمل مع كورسيا الكشف عن الكلام تتضمن مجموعات بيانات اللغة الإنجليزية والتاميل والمالياالام.نقدم آلية مرحلتين لاكتشاف خطاب الأمل.في المرحلة الأولى، نبني مصنف لتحديد لغة النص.في المرحلة الثانية، نبني مصنف للكشف عن خطاب الأمل أو الكلام غير