يتطلب محتوى الوسائط الاجتماعية المتغيرة بسرعة لنماذج الكشف عن إساءة الاستخدام قوية وممتع.ومع ذلك، فإن النماذج الخاضعة للإشراف على أحدث حدوث عرض الأداء المتدهورة عند تقييمها بشأن التعليقات المسيئة التي تختلف عن Training Corpus.نحقق في ما إذا كان أداء النماذج الخاضعة للإشراف للكشف عن إساءة استخدام سوريا يمكن تحسينه من خلال دمج معلومات إضافية من نماذج الموضوع، حيث يمكن أن يستنتج الأخير مخاليط الموضوعات الكامنة من العينات غير المرئية.على وجه الخصوص، نجمع بين المعلومات الموضعية مع التمثيلات من نموذج تم ضبطه لتصنيف التعليقات المسيئة.يكشف تحليل الأداء الخاص بنا أن نماذج الموضوعات قادرة على التقاط الموضوعات المتعلقة بالإساءة التي يمكنها نقلها عبر كوربورا، وتؤدي إلى تحسين التبرعات.
Rapidly changing social media content calls for robust and generalisable abuse detection models. However, the state-of-the-art supervised models display degraded performance when they are evaluated on abusive comments that differ from the training corpus. We investigate if the performance of supervised models for cross-corpora abuse detection can be improved by incorporating additional information from topic models, as the latter can infer the latent topic mixtures from unseen samples. In particular, we combine topical information with representations from a model tuned for classifying abusive comments. Our performance analysis reveals that topic models are able to capture abuse-related topics that can transfer across corpora, and result in improved generalisability.
المراجع المستخدمة
https://aclanthology.org/
تبلغ نماذج الكشف عن اللغة المسيئة للحكومة الأمريكية أداء كبير في Corpus، ولكن أداء الفضل عند تقييم التعليقات المسيئة التي تختلف عن سيناريو التدريب.نظرا لأن الشروح البشرية ينطوي على وقت وجهد كبير، فإن النماذج التي يمكن أن تتكيف مع التعليقات التي تم جم
من النماذج الإحصائية إلى النماذج العصبية، تم اقتراح مجموعة واسعة من خوارزميات نمذجة الموضوعات في الأدب. ومع ذلك، بسبب تنوع مجموعات البيانات والمقاييس، لم تكن هناك العديد من الجهود لمقارنة أدائها بشكل منهجي على نفس المعايير وتحت نفس الشروط. في هذه الو
نماذج الموضوع العصبي هي النماذج العصبية الأخيرة تهدف إلى استخراج الموضوعات الرئيسية من مجموعة من الوثائق.عادة ما تكون مقارنة هذه النماذج محدودة لأن فرط الدم محتجز ثابتة.في هذه الورقة، نقدم تحليلا تجريبي ومقارنة بين نماذج الموضوعات العصبية من خلال الع
أصبح الكشف عن اللغة المسيئة أداة مهمة لزراعة منصات آمنة عبر الإنترنت.نحن نبحث في تفاعل جودة التوضيحية وأداء المصنف.نحن نستخدم مخطط توضيحي جديد وحبوس جديد يتيح لنا التمييز بين اللغة المسيئة والاستخدامات العامية للغالبية غير المقصود ضررا.تظهر نتائجنا م
أظهرت أنظمة الكشف عن اللغة المسيئة الحالية التحيز غير المقصود تجاه ميزات حساسة مثل الجنسية أو الجنس. هذه قضية حاسمة، والتي قد تؤذي الأقليات والجماعات الممثلة تمثيلا ناقصا إذا تم دمج هذه الأنظمة في تطبيقات العالم الحقيقي. في هذه الورقة، نقوم بإنشاء اخ