ترغب بنشر مسار تعليمي؟ اضغط هنا

قياس التحيزات الاجتماعية في الرؤية الأساسية وإدماج اللغة

Measuring Social Biases in Grounded Vision and Language Embeddings

368   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن نعمل على تعميم فكرة قياس التحيزات الاجتماعية في Word Ageddings لإضاءة Word بصريا. الحياز موجودة في المدينات المتطرفة، ويبدو أنها بالفعل أكثر أهمية أو أكثر أهمية من المدمج غير المقصود. هذا على الرغم من حقيقة أن الرؤية واللغة يمكن أن تعاني من تحيزات مختلفة، والذي قد يأمل المرء أن يخفف من التحيزات في كليهما. توجد طرق متعددة لتعميم التحيز القياسي القياسي في Word Ageddings لهذا الإعداد الجديد. نقدم مساحة التعميمات (Weat-Weat-Weat and Grounded) وإظهار أن ثلاث تعميمات تجيب على أسئلة مختلفة لكنها مهمة حول كيفية تفاعل التحيزات واللغة والرؤية. يتم استخدام هذه المقاييس في مجموعة بيانات جديدة، الأول من أجل التحيز الأساسي، الذي تم إنشاؤه عن طريق زيادة معايير التحيز اللغوي القياسي مع 10228 صورة من كوكو، والتسمية التوضيحية المفاهيمية، وصور جوجل. بناء البيانات يتحدى لأن مجموعات بيانات الرؤية هي نفسها منحازة للغاية. سيبدأ وجود هذه التحيزات في الأنظمة في الحصول على عواقب عالمية حقيقية حيث يتم نشرها، مما يجعلها تقيس التحيز بعناية ثم تخفيفها بالغ الأهمية لبناء مجتمع عادل.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

لا تزال التحيزات منتشرة في النصوص والإعلام الحديث، وخاصة التحيز الذاتي - نوع خاص من التحيز الذي يقدم مواقف غير لائقة أو يقدم بيان مع افتراض الحقيقة. لمعالجة مشكلة الكشف عن التحيز الذاتي والتخفيف، نقدم كوربايا موازية مشروح يدويا مع أكثر من 4000 زوجا م ن التعديلات في ويكيبيديا. تحتوي هذه الجوربوس على شروح تجاه كل من أنواع التحيز على مستوى الجملة وشرائح منحازة على مستوى الرمز المميز. نقدم تحليلات منهجية لمجموعة بياناتنا والنتائج التي حققتها مجموعة من خطوط الأساس الحديثة من حيث ثلاث مهام: تصنيف التحيز، ووضع علامات شرائح منحازة، وتحييد النص المتحيز. نجد أن النماذج الحالية لا تزال تكافح مع اكتشاف التحيزات متعددة الأجزاء على الرغم من أدائها المعقول، مما يشير إلى أن DataSet لدينا يمكن أن تكون بمثابة معيار بحث مفيد. نوضح أيضا أن النماذج المدربة على DataSet الخاصة بنا يمكن أن تعزز جيدا إلى مجالات متعددة مثل الأخبار والخطب السياسية.
تحيز قياس التجريدي هو المفتاح لفهم أفضل ومعالجة الظلم في نماذج NLP / ML.غالبا ما يتم ذلك عبر مقاييس الإنصاف، مما يحدد الاختلافات في سلوك النموذج عبر مجموعة من المجموعات الديموغرافية.في هذا العمل، ألقينا المزيد من الضوء على الاختلافات وتشابه التشابه ب ين مقاييس الإنصاف المستخدمة في NLP.أولا، نقوم بتوحيد مجموعة واسعة من المقاييس الموجودة بموجب ثلاثة مقاييس المعرفة المعممة، وكشف عن الاتصالات بينهما.بعد ذلك، نقوم بإجراء مقارنة تجريبية واسعة النطاق للمقاييس الموجودة وإظهار أن الاختلافات المرصودة في قياس التحيز يمكن تفسيرها بشكل منهجي عبر الاختلافات في خيارات المعلمات لمقاييسنا المعمم.
تهدف العبارة الأساسية إلى تعيين العبارات النصية إلى مناطق الصور المرتبطة بها، والتي يمكن أن تكون شرطا أساسيا لسبب متعدد الوسائط ويمكن أن تستفيد المهام التي تتطلب تحديد الكائنات القائمة على اللغة. مع تحقيق نماذج للرؤية واللغة المدربة مسبقا أداء مثير ل لإعجاب عبر المهام، لا يزال غير واضح إذا كان بإمكاننا الاستفادة مباشرة من تضمينهم المستفادين لعبارة التأريض دون ضبط جيد. تحقيقا لهذه الغاية، نقترح طريقة لاستخراج أزواج من منطقة العبارات المتطابقة من تضمين الرؤية واللغة المدربة مسبقا واقتراح أربع أهداف صعبة لتحسين عبارة التأريض النموذجية باستخدام بيانات التسمية التوضيحية للصور دون أي إشارات تأريض خاضعة للإشراف. توضح التجارب في مجموعات بيانات تمثيليتين فعالية أهدافنا، مما يتفوق على نماذج أساسية في كل من إعدادات التأريض الإشراف والإشراف عليها. بالإضافة إلى ذلك، نقوم بتقييم embedings المحاذاة على العديد من المهام الأخرى المصب وإظهار أنه يمكننا تحقيق عبارات أفضل دون التضحية بعموة التمثيل.
تستخدم Word Embeddings على نطاق واسع في معالجة اللغة الطبيعية (NLP) لمجموعة واسعة من التطبيقات. ومع ذلك، فقد ثبت باستمرار أن هذه المدينات تعكس نفس التحيزات البشرية الموجودة في البيانات المستخدمة لتدريبها. معظم مؤشرات التحيز المنصوص عليها للكشف عن تحي ز Word Embeddings مؤشرات قائمة على أساس مقياس التشابه الجيبلي. في هذه الدراسة، ندرس آثار تدابير التشابه المختلفة وكذلك التقنيات الوصفية الأخرى أكثر من المتوسط ​​في قياس تحيزات تضمين الكلمات السياقية وغير السياقية. نظهر أن حجم التحيزات المكشوفة في Word Embeddings يعتمد على تدابير الإحصاءات الوصفية والتشابه المستخدمة لقياس التحيز. وجدنا أنه خلال الفئات العشرة من اختبارات جمعية تضمين Word، تكشف مسافة Mahalanobis عن أصغر التحيز، وتكشف مسافة Euclidean عن أكبر تحيز في Word Ageddings. بالإضافة إلى ذلك، تكشف النماذج السياقية عن تحيزات أقل حدة من نماذج تضمين الكلمة غير السياقية.
يلعب الكشف التلقائي باللغة السامة دورا أساسيا في حماية مستخدمي الوسائط الاجتماعية، وخاصة مجموعات الأقليات، من الإساءة اللفظية.ومع ذلك، فإن التحيزات تجاه بعض الصفات، بما في ذلك النوع الاجتماعي والعرق واللهجة، موجودة في معظم مجموعات البيانات التدريبية للكشف عن السمية.تحيزات تجعل النماذج المستفادة غير عادلة ويمكن أن تؤدي إلى تفاقم تهميش الناس.بالنظر إلى أن طرق الدخل الحالية لمهام فهم اللغة الطبيعية العامة لا يمكن أن تخفف بشكل فعال من التحيزات في كاشفات السمية، نقترح استخدام الترشيد الثابت (invrat)، وهو إطار نظري للعبة يتكون من مولد الأساس المنطقي والتوقع، لاستبعاد الزائفةالارتباط ببعض الأنماط النحوية (على سبيل المثال، يذكر الهوية، لهجة) إلى تسميات السمية.نظرا لإيذاء أن طريقتنا تنتج معدل إيجابي كاذب أقل في كل من الصفات المعجمية واللهائية من أساليب الدخل السابقة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا