يلعب الكشف التلقائي باللغة السامة دورا أساسيا في حماية مستخدمي الوسائط الاجتماعية، وخاصة مجموعات الأقليات، من الإساءة اللفظية.ومع ذلك، فإن التحيزات تجاه بعض الصفات، بما في ذلك النوع الاجتماعي والعرق واللهجة، موجودة في معظم مجموعات البيانات التدريبية للكشف عن السمية.تحيزات تجعل النماذج المستفادة غير عادلة ويمكن أن تؤدي إلى تفاقم تهميش الناس.بالنظر إلى أن طرق الدخل الحالية لمهام فهم اللغة الطبيعية العامة لا يمكن أن تخفف بشكل فعال من التحيزات في كاشفات السمية، نقترح استخدام الترشيد الثابت (invrat)، وهو إطار نظري للعبة يتكون من مولد الأساس المنطقي والتوقع، لاستبعاد الزائفةالارتباط ببعض الأنماط النحوية (على سبيل المثال، يذكر الهوية، لهجة) إلى تسميات السمية.نظرا لإيذاء أن طريقتنا تنتج معدل إيجابي كاذب أقل في كل من الصفات المعجمية واللهائية من أساليب الدخل السابقة.
Automatic detection of toxic language plays an essential role in protecting social media users, especially minority groups, from verbal abuse. However, biases toward some attributes, including gender, race, and dialect, exist in most training datasets for toxicity detection. The biases make the learned models unfair and can even exacerbate the marginalization of people. Considering that current debiasing methods for general natural language understanding tasks cannot effectively mitigate the biases in the toxicity detectors, we propose to use invariant rationalization (InvRat), a game-theoretic framework consisting of a rationale generator and a predictor, to rule out the spurious correlation of certain syntactic patterns (e.g., identity mentions, dialect) to toxicity labels. We empirically show that our method yields lower false positive rate in both lexical and dialectal attributes than previous debiasing methods.
المراجع المستخدمة
https://aclanthology.org/
لا تزال التحيزات منتشرة في النصوص والإعلام الحديث، وخاصة التحيز الذاتي - نوع خاص من التحيز الذي يقدم مواقف غير لائقة أو يقدم بيان مع افتراض الحقيقة. لمعالجة مشكلة الكشف عن التحيز الذاتي والتخفيف، نقدم كوربايا موازية مشروح يدويا مع أكثر من 4000 زوجا م
مع النمو السريع في التكنولوجيا، شهد نشاط وسائل التواصل الاجتماعي طفرة في جميع الفئات العمرية.من المستحيل الإنساني التحقق من جميع التغريدات والتعليقات والحالة يدويا ما إذا كانت تتبع إرشادات المجتمع المناسبة.يتم نشر الكثير من السمية بانتظام على منصات و
تستكشف هذه الورقة ثلاثة تقنيات معالجة البيانات البسيطة (التوليف، التعزيز، المناهج الدراسية) لتحسين نماذج تلخيص الجماعة دون الحاجة إلى أي بيانات إضافية.نقدم طريقة تخليق البيانات مع إعادة الصياغة، وهي تقنية تكبير البيانات مع خلط العينات، وتعلم المناهج
نحن نعمل على تعميم فكرة قياس التحيزات الاجتماعية في Word Ageddings لإضاءة Word بصريا. الحياز موجودة في المدينات المتطرفة، ويبدو أنها بالفعل أكثر أهمية أو أكثر أهمية من المدمج غير المقصود. هذا على الرغم من حقيقة أن الرؤية واللغة يمكن أن تعاني من تحيزا
مع توفر المعلومات الرقمية المتزايدة بشكل متزايد، فإن المحتوى السام هو أيضا في ارتفاع. لذلك، فإن اكتشاف هذا النوع من اللغة له أهمية قصوى. نتعامل مع هذه المشكلة باستخدام مجموعة من نموذج اللغة المدربة مسبقا من أحدث (ManalBert) وتقنية حقيبة من الكلمات ال