ترغب بنشر مسار تعليمي؟ اضغط هنا

Wikibias: الكشف عن التحيزات الذاتية متعددة الأجزاء في اللغة

WIKIBIAS: Detecting Multi-Span Subjective Biases in Language

263   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

لا تزال التحيزات منتشرة في النصوص والإعلام الحديث، وخاصة التحيز الذاتي - نوع خاص من التحيز الذي يقدم مواقف غير لائقة أو يقدم بيان مع افتراض الحقيقة. لمعالجة مشكلة الكشف عن التحيز الذاتي والتخفيف، نقدم كوربايا موازية مشروح يدويا مع أكثر من 4000 زوجا من التعديلات في ويكيبيديا. تحتوي هذه الجوربوس على شروح تجاه كل من أنواع التحيز على مستوى الجملة وشرائح منحازة على مستوى الرمز المميز. نقدم تحليلات منهجية لمجموعة بياناتنا والنتائج التي حققتها مجموعة من خطوط الأساس الحديثة من حيث ثلاث مهام: تصنيف التحيز، ووضع علامات شرائح منحازة، وتحييد النص المتحيز. نجد أن النماذج الحالية لا تزال تكافح مع اكتشاف التحيزات متعددة الأجزاء على الرغم من أدائها المعقول، مما يشير إلى أن DataSet لدينا يمكن أن تكون بمثابة معيار بحث مفيد. نوضح أيضا أن النماذج المدربة على DataSet الخاصة بنا يمكن أن تعزز جيدا إلى مجالات متعددة مثل الأخبار والخطب السياسية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يلعب الكشف التلقائي باللغة السامة دورا أساسيا في حماية مستخدمي الوسائط الاجتماعية، وخاصة مجموعات الأقليات، من الإساءة اللفظية.ومع ذلك، فإن التحيزات تجاه بعض الصفات، بما في ذلك النوع الاجتماعي والعرق واللهجة، موجودة في معظم مجموعات البيانات التدريبية للكشف عن السمية.تحيزات تجعل النماذج المستفادة غير عادلة ويمكن أن تؤدي إلى تفاقم تهميش الناس.بالنظر إلى أن طرق الدخل الحالية لمهام فهم اللغة الطبيعية العامة لا يمكن أن تخفف بشكل فعال من التحيزات في كاشفات السمية، نقترح استخدام الترشيد الثابت (invrat)، وهو إطار نظري للعبة يتكون من مولد الأساس المنطقي والتوقع، لاستبعاد الزائفةالارتباط ببعض الأنماط النحوية (على سبيل المثال، يذكر الهوية، لهجة) إلى تسميات السمية.نظرا لإيذاء أن طريقتنا تنتج معدل إيجابي كاذب أقل في كل من الصفات المعجمية واللهائية من أساليب الدخل السابقة.
تعتمد منصات وسائل التواصل الاجتماعي عبر الإنترنت على نحو متزايد على تقنيات معالجة اللغة الطبيعية (NLP) للكشف عن محتوى مسيء على نطاق واسع من أجل تخفيف الأضرار التي يسببها لمستخدميها. ومع ذلك، فإن هذه التقنيات تعاني من مختلف تحيزات أخذ العينات والجمعية الموجودة في البيانات التدريبية، والتي غالبا ما تؤدي إلى أداء الفرعية على المحتوى ذي الصلة بالمجموعات المهمشة، مما يحتمل أن يؤدي إلى أضرار غير متناسبة تجاههم. ركزت دراسات حول مثل هذه التحيزات حتى الآن على حفنة فقط من محاور التباينات والمجموعات الفرعية التي تحتوي على التعليقات التوضيحية / المعجم المتاحة. وبالتالي، يتم تجاهل التحيزات المتعلقة بالسياقات غير الغربية إلى حد كبير في الأدبيات. في هذه الورقة، نقدم طريقة خاضعة للإشراف ضعيفا للكشف عن التحيزات المعجمية بقوة في السياقات الجغرافية الثقافية الأوسع نطاقا. من خلال دراسة الحالة حول نموذج كشف للسمية المتوفرة للجمهور، نوضح أن طريقتنا تحدد المجموعات البارزة من الأخطاء المتبادلة الجغرافية، وفي متابعة، توضح أن هذه التجمعات تعكس الأحكام الإنسانية من اللغة الهجومية واللغة الفعلية في تلك السياقات الجغرافية. نحن أيضا إجراء تحليل نموذج تدرب على مجموعة بيانات مع ملصقات الحقيقة الأرضية لفهم هذه التحيزات بشكل أفضل، وتقديم تجارب التخفيف الأولي.
نحن نعمل على تعميم فكرة قياس التحيزات الاجتماعية في Word Ageddings لإضاءة Word بصريا. الحياز موجودة في المدينات المتطرفة، ويبدو أنها بالفعل أكثر أهمية أو أكثر أهمية من المدمج غير المقصود. هذا على الرغم من حقيقة أن الرؤية واللغة يمكن أن تعاني من تحيزا ت مختلفة، والذي قد يأمل المرء أن يخفف من التحيزات في كليهما. توجد طرق متعددة لتعميم التحيز القياسي القياسي في Word Ageddings لهذا الإعداد الجديد. نقدم مساحة التعميمات (Weat-Weat-Weat and Grounded) وإظهار أن ثلاث تعميمات تجيب على أسئلة مختلفة لكنها مهمة حول كيفية تفاعل التحيزات واللغة والرؤية. يتم استخدام هذه المقاييس في مجموعة بيانات جديدة، الأول من أجل التحيز الأساسي، الذي تم إنشاؤه عن طريق زيادة معايير التحيز اللغوي القياسي مع 10228 صورة من كوكو، والتسمية التوضيحية المفاهيمية، وصور جوجل. بناء البيانات يتحدى لأن مجموعات بيانات الرؤية هي نفسها منحازة للغاية. سيبدأ وجود هذه التحيزات في الأنظمة في الحصول على عواقب عالمية حقيقية حيث يتم نشرها، مما يجعلها تقيس التحيز بعناية ثم تخفيفها بالغ الأهمية لبناء مجتمع عادل.
تعد التصنيفات البشرية واحدة من أكثر الطرق سائدة لتقييم أداء خوارزميات NLP (معالجة اللغة الطبيعية). وبالمثل، من الشائع قياس جودة الجمل الناتجة عن نموذج توليد اللغة الطبيعي باستخدام الدراسات البشرية. في هذه الورقة، نقول لاستكشاف استخدام التقييمات الذات ية ضمن عملية نماذج توليد اللغة التدريب في إعداد تعليمي متعدد المهام. كدراسة حالة، نستخدم كوربا حوارا مؤلفا من الحشود لضبط ستة نماذج توليد لغة مختلفة. يتضمن اثنان من هذه النماذج تعلم المهام المتعددة واستخدام التصنيفات الذاتية للخطوط كجزء من هدف التعلم الصريح. تكشف التقييم البشري لخطوط الحوار التي تم إنشاؤها أن الكلام الناتجة عن النماذج متعددة المهام تم تصنيفها بشكل ذاتي باعتبارها الأكثر نموذجية، وتحريك المحادثة للأمام، وأقل هجومية. استنادا إلى النتائج الأولى الواعدة، نقوم بمناقشة اتجاهات البحث في المستقبل لدمج التقييمات الإنسانية الذاتية في التدريب النموذجي اللغوي وبالتالي الحفاظ على المستخدم البشري في الحلقة أثناء عملية التطوير.
تهدف الكشف عن العلاقات متعددة القفزات في أسئلة المعرفة الإجابة (KBQA) إلى استرجاع مسار العلاقة بدءا من كيان الموضوع إلى عقدة الإجابة بناء على سؤال معين، حيث قد يشتمل مسار العلاقة على علاقات متعددة. تعامل معظم الأساليب الموجودة بمثابة مشكلة في تعلم ال علامة الفردية مع تجاهل حقيقة أنه بالنسبة لبعض الأسئلة المعقدة، توجد مسارات علاقة صحيحة متعددة في قواعد المعرفة. لذلك، في هذه الورقة، يعتبر اكتشاف العلاقة المتعددة القفز مشكلة في التعلم متعدد العلامات. ومع ذلك، فإن إجراء اكتشاف علاقة متعددة الأقفز متعددة الملصقات يمثل تحديا لأن أعداد كل من الملصقات والقفزات غير معروفة. لمعالجة هذا التحدي، يتم صياغة الكشف المتعدد الملصقات متعددة القفز كهجوم توليد التسلسل. يقترح نموذج توليد علاقات العلاقة بين العلاقة على حل المشكلة بطريقة نهاية إلى نهاية. تظهر النتائج التجريبية فعالية الطريقة المقترحة للكشف عن العلاقة و KBQA.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا