ترغب بنشر مسار تعليمي؟ اضغط هنا

تخفيف التحيز DIACHRONIC في DataSet

Mitigation of Diachronic Bias in Fake News Detection Dataset

246   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أخبار وهمية تسبب أضرارا كبيرة في المجتمع.للتعامل مع هذه الأخبار المزيفة، تم إجراء العديد من الدراسات حول نماذج كشف البناء وترتيب مجموعات البيانات.معظم مجموعات بيانات الأخبار المزيفة تعتمد على فترة زمنية محددة.وبالتالي، فإن نماذج الكشف المدربة على مثل هذه البيانات لديها صعوبة في اكتشاف الأخبار الرواية المزيفة الناتجة عن التغييرات السياسية والتغيرات الاجتماعية؛قد ينتج عنهم إخراج متحيز من المدخلات، بما في ذلك أسماء شخص معين وأسماء تنظيمية.نشير إلى هذه المشكلة كتحيز DIACHRONIC لأنه سبب تاريخ إنشاء الأخبار في كل مجموعة بيانات.في هذه الدراسة، نؤكد التحيز، وخاصة الأسماء المناسبة بما في ذلك أسماء الشخص، من انحراف مظاهر العبارة في كل مجموعة بيانات.بناء على هذه النتائج، نقترح طرق الاخفاء باستخدام Wikidata للتخفيف من تأثير أسماء الشخص والتحقق من صحة ما إذا كانوا يقومون بإجراء نماذج الكشف عن الأخبار وهمية قوية من خلال التجارب مع بيانات داخل المجال والخروج.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

غالبا ما تصل التقنيات الحالية لتخفيف DataSet Bias إلى نموذج متحيز لتحديد مثيلات منحازة. ثم يتم تخفيض دور هذه الحالات المتحيزة خلال تدريب النموذج الرئيسي لتعزيز متانة البيانات الخاصة به ببيانات خارج التوزيع. إن الافتراض الأساسي المشترك لهذه التقنيات ه و أن النموذج الرئيسي يتعامل مع حالات متحيزة بالمثل للنموذج المتحيز، في أنه سوف يلجأ إلى التحيزات كلما كان ذلك متاحا. في هذه الورقة، نوضح أن هذا الافتراض لا يمسك بشكل عام. نقوم بإجراء تحقيق حاسم على مجموعة من مجموعات عمليتين مشهورة في المجال، MNLI و FEVER، إلى جانب طريقتين للكشف عن مثيل متحيز، وإدخال جزئي ونماذج ذات سعة محدودة. تظهر تجاربنا أنه في حوالي الثلث إلى نصف الحالات، لا يتمكن النموذج المتحيز من التنبؤ بسلوك النموذج الرئيسي، مع إبرازها بواسطة الأجزاء المختلفة بشكل كبير من المدخلات التي يضمونها قراراتهم. بناء على التحقق الدليلي، نوضح أيضا أن هذا التقدير يتماشى للغاية مع التفسير البشري. تشير النتائج التي توصلنا إليها إلى أن ترزز المثيلات التي تم اكتشافها بواسطة طرق اكتشاف التحيز، وهي إجراءات تمارس على نطاق واسع، هي مضيعة لا لزوم لها من البيانات التدريبية. نطلق سرد علاماتنا لتسهيل الإنتاجية والبحوث المستقبلية.
في هذه الورقة، ندرس التحيز العرقي وكيف يختلف عبر اللغات عن طريق تحليل التحيز الإثني والتخفيف من التحيز الإثني في بيرت أحادي اللغة الإنجليزية والألمانية والإسبانية والكورية والتركية والصينية.لاحظ وتحديد التحيز العرقي، ونحن نطور مترا مربعا يسمى درجة ال تحيز الفئرانية.ثم نقترح طريقتين للتخفيف؛أولا باستخدام نموذج متعدد اللغات، والثاني باستخدام محاذاة الكلمات السياقية من نماذج أحادية.قارن أساليبنا المقترحة مع بيرت أحادي الأجل وإظهار أن هذه الأساليب تخفف بشكل فعال التحيز العرقي.أي من الطريقتين يعملان بشكل أفضل يعتمد على مقدار موارد NLP المتاحة لهذه اللغة.نحن بالإضافة إلى تجربة اللغة العربية واليونانية للتحقق من أن أساليبنا المقترحة تعمل من أجل مجموعة متنوعة واسعة من اللغات.
وقد تبين أن نماذج اللغة ذات الضبط بذاتها أن تظهر تحيزات ضد المجموعات المحمية في مجموعة من مهام النمذجة مثل تصنيف النص ودقة Aqueference. تركز الأشغال السابقة على اكتشاف هذه التحيزات، وتقليل التحيز في تمثيلات البيانات، واستخدام أهداف التدريب الإضافية ل تخفيف التحيز أثناء الضبط بشكل جيد. على الرغم من أن هذه التقنيات تحقق تخفيض التحيز للمهمة والمجال في متناول اليد، إلا أن آثار تخفيف التحيز قد لا ينقل بشكل مباشر إلى مهام جديدة، مما يتطلب جمع بيانات إضافية وشروح تخصيصا للسمات الحساسة، وإعادة تقييم مقاييس الإنصاف المناسبة. نستكشف من جدوى وفوائد تخفيف التحيز المنبع (UBM) لتقليل التحيز حول مهام المصب، من خلال تطبيق تخفيف التحيز الأول لأول مرة إلى نموذج Upstream من خلال الضبط الجميل وبعد ذلك باستخدامه للضبط الناعم المصب. نجد، في تجارب واسعة عبر تكشف عن الكلام الكراهية، وكشف السمية ومهام القرار الأساسية حول عوامل التحذير المختلفة، أن آثار UPM قابلة للتحويل بالفعل إلى مهام أو مجالات جديدة للملاعب الجديدة من خلال ضبط نماذج دقيقة، مما يخلق نماذج أقل منحازة من النماذج بشكل مباشر ضبط المهمة المصب أو نقل من نموذج الفانيليا المنبع. على الرغم من أن التحديات تبقى، إلا أننا نوضح أن UBM يعد بتخفيف التحيز أكثر كفاءة ويمكن الوصول إليها في LM Fine-Tuning.
مع استمرار العالم في محاربة جائحة CovID-19، فإنه يقاتل في وقت واحد من نقص الدم "- وهو طوفان من تضليل وانتشار نظريات المؤامرة المؤدية إلى تهديدات صحية وشعبة المجتمع. لمكافحة هذا المعكرية، هناك حاجة ملحة لمجموعات البيانات القياسية التي يمكن أن تساعد ال باحثين على تطوير وتقييم النماذج الموجهة نحو الكشف التلقائي عن التضليل. في حين أن هناك جهودا متزايدة لإنشاء مجموعات بيانات قياسية كافية ومفتوحة للمصدر للغة الإنجليزية، فإن الموارد القابلة للمقارنة غير متاحة تقريبا بالنسبة للألمانية، مما يترك البحث في اللغة الألمانية متخلفة بشكل كبير. في هذه الورقة، نقدم DataSet المعيار الجديد Fang-Covid يتكون من 28،056 مواد إخبارية ألمانية حقيقية و 13،186 مرتبطة بمعائق CovID-19 وكذلك بيانات عن انتشارها على Twitter. علاوة على ذلك، نقترح نموذجا قابل للتفسير القائم على السياق والاجتماعي للكشف عن الأخبار المزيفة، ومقارنة أدائه إلى النماذج والأداء الأسود الميزة لتقييم الأهمية النسبية للميزات القابلة للتفسير البشرية في التمييز بين الأخبار المزيفة من الأخبار الأصلية وبعد
استخدام الوعود هو سائق معروف لتغيير اللغة. وقد اقترح أن تستخدم النساء النساء أكثر من الرجال. على الرغم من وجود العديد من الدراسات التي تحقق في الاختلافات بين الجنسين في اللغة، إلا أن المطالبة المتعلقة باستخدام الاستحمام لم يتم اختبارها بشكل شامل عبر الزمن. إذا كانت النساء يستخدمن اللفائف أكثر، فقد يعني ذلك أن النساء يقودن أيضا تكوين عمليات إفراطية جديدة وتغيير اللغة مع مرور الوقت. باستخدام أربعة نص شهير كوربورا كبيرة من اللغة الإنجليزية، نقيم الادعاء بأن النساء يستخدمن الزيادات أكثر من الرجال من خلال تحليل كمي. كنا قمنا بتجميع قائمة ب 106 أزواج من الطبع - المحرمات لتحليل استخدامها النسبي عبر الزمن من قبل كل جنس في Corga. على عكس الاعتقاد الحالي، تظهر نتائجنا أن النساء لا يستخدمن اللفائف ذات نسبة أعلى من الرجال. كررنا التحليل باستخدام قائمة فرعية مختلفة من قائمة الأزواج من الادعاء-المحرمات ووجدت أن النتيجة كانت قوية. تشير دراستنا إلى أنه في مجموعة واسعة من الإعدادات التي تنطوي على كل من الخطاب والكتابة، ومع درجات متفاوتة من الأشكال، لا تستخدم النساء أو تشكيل الزيادات أكثر من الرجال.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا