ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم الواضح من النزاهة

Fairness-aware Class Imbalanced Learning

64   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الخلل من الطبقة هو تحد مشترك في العديد من مهام NLP، ولديه اتصالات واضحة إلى التحيز، في هذا التحيز في البيانات التدريبية يؤدي غالبا إلى دقة أعلى بالنسبة لمجموعات الأغلبية على حساب مجموعات الأقليات.ومع ذلك، كان هناك تقليديا قطع اتصال بين البحث في التعلم المتوازن في الفئة والتخفيف من التحيز، ولديه مؤخرا فقط تم النظر في اثنين من خلال عدسة مشتركة.في هذا العمل، نقيم أساليب التعلم الطويلة ذات الذيل الطويل لتغريد المعنويات وتصنيف الاحتلال، وتوسيع نهج قائم على الهامش مع طرق لفرض الإنصاف.نعرض تجريبيا من خلال تجارب محكومة أن الأساليب المقترحة تساعد في تخفيف كل من الخلل في الطبقة والتحيزات الديموغرافية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أظهرت أنظمة الكشف عن اللغة المسيئة الحالية التحيز غير المقصود تجاه ميزات حساسة مثل الجنسية أو الجنس. هذه قضية حاسمة، والتي قد تؤذي الأقليات والجماعات الممثلة تمثيلا ناقصا إذا تم دمج هذه الأنظمة في تطبيقات العالم الحقيقي. في هذه الورقة، نقوم بإنشاء اخ تبارات مخصصة من خلال أداة قائمة المراجعة (Ribeiro et al.، 2020) للكشف عن التحيزات داخل مصنفات اللغة المسيئة للغة الإنجليزية. نقارن سلوك نماذج استنادتين في بيرت، واحد مدرب على مجموعة بيانات الكلام الكراهية العامة والآخر في مجموعة بيانات للكشف عن الحرج. يوضح تقييمنا أنه على الرغم من أن المصنفات القائمة على بيرت تحقق مستويات عالية الدقة على مجموعة متنوعة من مهام معالجة اللغة الطبيعية، فإنها تؤدي بشكل سيء للغاية فيما يتعلق بالإنصاف والتحيز، لا سيما بشأن العينات التي تنطوي على الصور النمطية الضمنية، وتعبيرات عن الكراهية نحو الأقليات والسمات المحمية كما العرق أو الميل الجنسي. نطلق سراح كل من أجهزة الكمبيوتر المحمولة المنفذة لتوسيع اختبارات الإنصاف ومجموعات البيانات الاصطناعية التي يمكن استخدامها لتقييم تنظيم الأنظمة بشكل مستقل عن قائمة المراجعة.
توفر الجداول معرفة قيمة يمكن استخدامها للتحقق من العبارات النصية. في حين أن عددا من الأعمال قد نظر في التحقق من الحقائق القائم على الطاولة، فإن المحاذاة المباشرة للبيانات الجذابية مع الرموز في البيانات النصية نادرا ما توفرها. علاوة على ذلك، فإن تدريب نموذج التحقق من الحقائق المعممة يتطلب بيانات تدريبية ملصقة وفيرة. في هذه الورقة، نقترح نظام رواية لمعالجة هذه المشكلات. مستوحاة من السببية المتعددة، يحدد نظامنا من رجال الصمغ على مستوى الرمز في البيان مع تقدير البحار الذي يستند إلى التحقيق. يتيح تقدير Salience التعلم المعزز للتحقق من الحقائق من وجهات نظر. من منظور واحد، يقوم نظامنا بإجراء تنبؤ ممثن بالبرنامج المريح لتعزيز النموذج للمحاذاة والتفكير بين الطاولة والبيان. من المنظور الآخر، ينطبق نظامنا على توضيح تكبير البيانات الإدراك بالاستثناء لإنشاء مجموعة متنوعة من مثيلات التدريب عن طريق استبدال المصطلحات غير البارزة. تظهر النتائج التجريبية على Tabract التحسن الفعال من خلال تقنيات التعلم التي أدركها Carience المقترحة، مما يؤدي إلى أداء Sota الجديد على المعيار.
حقق التعلم التلوي نجاحا كبيرا في الاستفادة من المعرفة المستفادة التاريخية لتسهيل عملية التعلم المهمة الجديدة.ومع ذلك، فإن تعلم معرفة المهام التاريخية، التي اعتمدتها خوارزميات التعلم التلوي الحالية، قد لا تعميم بشكل جيد للاختبار المهام عندما لا تكون م دعومة جيدا بمهام التدريب.تدرس هذه الورقة مشكلة تصنيف النص المنخفض للموارد ويزيد الفجوة بين مهام اختبار التوطين والاختبار التلوي من خلال الاستفادة من قواعد المعرفة الخارجية.على وجه التحديد، نقترح KGML لإدخال تمثيل إضافي لكل جملة مستفادة من الرسم البياني المعرفي الخاص بالحكم الجملة المستخرجة.توضح التجارب الواسعة على ثلاثة مجموعات بيانات فعالية KGML تحت كلا من إعدادات التكيف والإشراف غير المدفوع.
في حين أن الأداء التنبئي لمحطات التبعية الإحصائية الحديثة يعتمد بشدة على توافر بيانات Treebank المشروح باهظة الثمن، إلا أن جميع التعليقات التعليقات التوضيحية تسهم على قدم المساواة في تدريب المحللين.في هذه الورقة، نحاول تقليل عدد الأمثلة المسماة اللاز مة لتدريب محلل التبعية القوي باستخدام دفعة التعلم النشطة (AL).على وجه الخصوص، يمكننا التحقيق فيما إذا كانت تنفذ التنوع في دفعات العينات، باستخدام عمليات النقاط الحتمية (DPPS)، يمكن أن تتحسن من نظرائها التنوع المرجح.تظهر تجارب المحاكاة على كوربوس الإنجليزي Newswire أن اختيار دفعات متنوعة مع DPPS متفوقة على استراتيجيات الاختيار القوية التي لا تنفذ التنوع الدفاعي، خاصة خلال المراحل الأولية لعملية التعلم.بالإضافة إلى ذلك، فإن استراتيجيتنا الإدراك الخاصة بالتنوع قوية بموجب إعداد ازدواجية كوربوس، حيث تظهر استراتيجيات أخذ العينات اللاإرادية للتنوع تدهورا كبيرا.
على عكس النص المنظم جيدا، مثل التقارير الإخبارية ومقالات الموسوعة، غالبا ما يأتي محتوى الحوار من محاورين أو أكثر، وتبادل المعلومات مع بعضها البعض. في مثل هذا السيناريو، يمكن أن يختلف موضوع المحادثة عند التقدم والمعلومات الأساسية لموضوع معين في كثير م ن الأحيان متناثرة عبر مختلف الكلام من المتكلمين المختلفة، مما يطرح التحديات التي تلخص التخلص من الحوارات بشكل مجردة. لالتقاط معلومات الموضوع المختلفة للمحادثة والحقائق البارزة على الموضوعات التي تم الاستيلاء عليها، يقترح هذا العمل أهدافا للتعلم المتعاواة على علم الموضوع، وهي اكتشاف الاتساق وأهداف الجيل الموجزة الفرعية، والتي من المتوقع أن تقوم بها ضمنيا في تغيير موضوع وتغيير الموضوع تحديات تثير المعلومات لمهمة تلخيص الحوار. يتم تأطير الأهداف المقنعة المقترحة بمثابة مهام مساعدة لمهمة تلخيص الحوار الأساسي، المتحدة عبر استراتيجية تحديث معلمة بديلة. توضح تجارب واسعة النطاق على مجموعات البيانات القياسية أن الطريقة البسيطة المقترحة تتفوق بشكل كبير على خطوط الأساس القوية وتحقق أداء جديد من بين الفني. الرمز والنماذج المدربة متاحة للجمهور عبر.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا