ترغب بنشر مسار تعليمي؟ اضغط هنا

تحديد التحيزات الاجتماعية في NLP: تعميم ومقارنة تجريبية لمقاييس الإنصاف الخارجي

Quantifying Social Biases in NLP: A Generalization and Empirical Comparison of Extrinsic Fairness Metrics

204   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحيز قياس التجريدي هو المفتاح لفهم أفضل ومعالجة الظلم في نماذج NLP / ML.غالبا ما يتم ذلك عبر مقاييس الإنصاف، مما يحدد الاختلافات في سلوك النموذج عبر مجموعة من المجموعات الديموغرافية.في هذا العمل، ألقينا المزيد من الضوء على الاختلافات وتشابه التشابه بين مقاييس الإنصاف المستخدمة في NLP.أولا، نقوم بتوحيد مجموعة واسعة من المقاييس الموجودة بموجب ثلاثة مقاييس المعرفة المعممة، وكشف عن الاتصالات بينهما.بعد ذلك، نقوم بإجراء مقارنة تجريبية واسعة النطاق للمقاييس الموجودة وإظهار أن الاختلافات المرصودة في قياس التحيز يمكن تفسيرها بشكل منهجي عبر الاختلافات في خيارات المعلمات لمقاييسنا المعمم.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن نعمل على تعميم فكرة قياس التحيزات الاجتماعية في Word Ageddings لإضاءة Word بصريا. الحياز موجودة في المدينات المتطرفة، ويبدو أنها بالفعل أكثر أهمية أو أكثر أهمية من المدمج غير المقصود. هذا على الرغم من حقيقة أن الرؤية واللغة يمكن أن تعاني من تحيزا ت مختلفة، والذي قد يأمل المرء أن يخفف من التحيزات في كليهما. توجد طرق متعددة لتعميم التحيز القياسي القياسي في Word Ageddings لهذا الإعداد الجديد. نقدم مساحة التعميمات (Weat-Weat-Weat and Grounded) وإظهار أن ثلاث تعميمات تجيب على أسئلة مختلفة لكنها مهمة حول كيفية تفاعل التحيزات واللغة والرؤية. يتم استخدام هذه المقاييس في مجموعة بيانات جديدة، الأول من أجل التحيز الأساسي، الذي تم إنشاؤه عن طريق زيادة معايير التحيز اللغوي القياسي مع 10228 صورة من كوكو، والتسمية التوضيحية المفاهيمية، وصور جوجل. بناء البيانات يتحدى لأن مجموعات بيانات الرؤية هي نفسها منحازة للغاية. سيبدأ وجود هذه التحيزات في الأنظمة في الحصول على عواقب عالمية حقيقية حيث يتم نشرها، مما يجعلها تقيس التحيز بعناية ثم تخفيفها بالغ الأهمية لبناء مجتمع عادل.
يمكن للبشر تعلم مهمة لغة جديدة بكفاءة مع عدد قليل فقط من الأمثلة، من خلال الاستفادة من معارفهم التي تم الحصول عليها عند تعلم المهام السابقة. في هذه الورقة، نستكشف ما إذا كان يمكن الحصول على قدرة تعميم المهام عبر المهام المباشرة، وتطبيقها بشكل أكبر عل ى بناء عدد قليل من المتعلمين لقلة طلقات عبر مهام NLP المتنوعة. نقدم Crossfit، وهي إعداد مشكلة في دراسة قدرة تعميم المهام عبر المهام، والتي توحد من أقسام المهام / غير المرئية، والوصول إلى البيانات أثناء مراحل التعلم المختلفة، وبروتوكولات التقييم. لإنشاء أقسام مهمة مختلفة / غير مرئية في CrossFit وتسهيل التحليل المتعمق، نقدم صالة الألعاب الرياضية ذات القليل من الرصاص NLP، مستودع 160 مهام NLP قليلة متنوعة تم إنشاؤها من مجموعات بيانات NLP مفتوحة الوصول وتحويلها إلى نص موحد لتنسيق النص. يكشف تحليلنا أن قدرة التعلم القليلة من التعلم على المهام غير المرئية يمكن تحسينها عبر مرحلة التعلم المنبع باستخدام مجموعة من المهام المشاهدة. نلاحظ أيضا أن اختيار مهام التعلم المنبع يمكن أن يؤثر بشكل كبير على أداء قليل الطلقات على المهام غير المرئية، ويطلب المزيد من التحليلات حول التشابه المهمة وقابلية النقل.
تعتمد منصات وسائل التواصل الاجتماعي عبر الإنترنت على نحو متزايد على تقنيات معالجة اللغة الطبيعية (NLP) للكشف عن محتوى مسيء على نطاق واسع من أجل تخفيف الأضرار التي يسببها لمستخدميها. ومع ذلك، فإن هذه التقنيات تعاني من مختلف تحيزات أخذ العينات والجمعية الموجودة في البيانات التدريبية، والتي غالبا ما تؤدي إلى أداء الفرعية على المحتوى ذي الصلة بالمجموعات المهمشة، مما يحتمل أن يؤدي إلى أضرار غير متناسبة تجاههم. ركزت دراسات حول مثل هذه التحيزات حتى الآن على حفنة فقط من محاور التباينات والمجموعات الفرعية التي تحتوي على التعليقات التوضيحية / المعجم المتاحة. وبالتالي، يتم تجاهل التحيزات المتعلقة بالسياقات غير الغربية إلى حد كبير في الأدبيات. في هذه الورقة، نقدم طريقة خاضعة للإشراف ضعيفا للكشف عن التحيزات المعجمية بقوة في السياقات الجغرافية الثقافية الأوسع نطاقا. من خلال دراسة الحالة حول نموذج كشف للسمية المتوفرة للجمهور، نوضح أن طريقتنا تحدد المجموعات البارزة من الأخطاء المتبادلة الجغرافية، وفي متابعة، توضح أن هذه التجمعات تعكس الأحكام الإنسانية من اللغة الهجومية واللغة الفعلية في تلك السياقات الجغرافية. نحن أيضا إجراء تحليل نموذج تدرب على مجموعة بيانات مع ملصقات الحقيقة الأرضية لفهم هذه التحيزات بشكل أفضل، وتقديم تجارب التخفيف الأولي.
لقد حقق مجال NLP تقدما كبيرا في بناء تعويضات المعنى.ومع ذلك، تم تجاهل جانب مهم من المعنى اللغوي، والمعنى الاجتماعي، إلى حد كبير.نقدم مفهوم المعنى الاجتماعي ل NLP ومناقشة كيفية إبلاغ رؤى Sociolinguics بالعمل على التعلم في التمثيل في NLP.نحدد أيضا التحديات الرئيسية لهذا الخط الجديد من البحث.
نادرا ما تعطي أنظمة NLP اعتبارا خاصا للأرقام الموجودة في النص.هذا يتناقض بشكل صارخ مع توافق الآراء في علم الأعصاب، في الدماغ، يتم تمثيل الأرقام بشكل مختلف عن الكلمات.نحن نقوم بترتيب أعمال NLP الأخيرة على الحساب في تصنيف شامل للتصنيف والأساليب.نقوم بف حص الفكرة الشخصية للعسمة في 7 مجموعات فرعية، مرتبة على طول الأبعاد: الحبيبية (التقريبي الدقيق التقريبي) والوحدات (مجردة مقابل مؤسسة).نقوم بتحليل الخيارات التمثيلية لا تعد ولا تحصى التي قامت بأكثر من عشرة أرقام منشورة سابقا وروائح الكشف.نتوضع أفضل الممارسات لتمثيل الأرقام في النص والتعبير عن رؤية للحساب الشمولي في NLP، تتألف من مفاضات التصميم وتقييم موحد.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا