تحذير: تحتوي هذه الورقة على محتوى قد يكون مسيء أو مزعجا.تستخدم قواعد المعرفة المنطقية (CSKB) بشكل متزايد لمختلف مهام معالجة اللغة الطبيعية.نظرا لأن CSCBS هي في الغالب التي تم إنشاؤها في الغالب وقد تعكس التحيزات المجتمعية، من المهم التأكد من عدم الخلط بين هذه التحيزات بمفهوم المنطقية.نحن هنا نركز على اثنين من CSCBS واستخدامه على نطاق واسع، والفصح والنهاهي والنهاهي، وتأسيس وجود التحيز في شكل نوعين من الأضرار التمثيلية، والانتعاش في التصورات الاستقطابية وتفاوت التمثيل في مختلف المجموعات الديموغرافية في كلا CSCBS.بعد ذلك، نجد أضرارا تمثيلية مماثلة للنماذج المصب التي تستخدم المفاهيم.أخيرا، نقترح نهجا قائم على الترشيح لتخفيف هذه الأضرار، ويلاحظ أن نهجنا المستندات المرتبطا يمكن أن يقلل من المشكلات في كل من الموارد والنماذج ولكن يؤدي إلى انخفاض الأداء، مغادرة المجال للعمل في المستقبل لبناء نماذج المنطقية أكثر عدالة وأقوىوبعد
Warning: this paper contains content that may be offensive or upsetting. Commonsense knowledge bases (CSKB) are increasingly used for various natural language processing tasks. Since CSKBs are mostly human-generated and may reflect societal biases, it is important to ensure that such biases are not conflated with the notion of commonsense. Here we focus on two widely used CSKBs, ConceptNet and GenericsKB, and establish the presence of bias in the form of two types of representational harms, overgeneralization of polarized perceptions and representation disparity across different demographic groups in both CSKBs. Next, we find similar representational harms for downstream models that use ConceptNet. Finally, we propose a filtering-based approach for mitigating such harms, and observe that our filtered-based approach can reduce the issues in both resources and models but leads to a performance drop, leaving room for future work to build fairer and stronger commonsense models.
المراجع المستخدمة
https://aclanthology.org/
تدوين المعرفة المنطقية في الآلات هو هدف طويل الأطول من الذكاء الاصطناعي. في الآونة الأخيرة، تم إحراز تقدم كبير نحو هذا الهدف مع تقنيات بناء قاعدة المعرفة التلقائية (KB). ومع ذلك، فإن هذه التقنيات تركز في المقام الأول على اكتساب بيانات KB الإيجابية (T
النعالة عبارة عن مبالغة متعمدة وإبداعية لا تؤخذ حرفيا.على الرغم من كل مكانه في الحياة اليومية، فإن الاستكشافات الحسابية من النعالة نادرة.في هذه الورقة، نتعامل مع المهمة غير المستكشفة والتحديات: توليد بطول الأغلبية على مستوى الجملة.نبدأ بنمط نصي تمثيل
الملخص لتطوير تطبيقات NLP المتطرفة المنطقية، وهو رسم بياني معرفي شامل ودقيق للعموم (CKG).إنها تستغرق وقتا طويلا لإنشاء CKGS يدويا والعديد من جهود البحثية التي تم تخصيصها للبناء التلقائي CKGS.تركز النهج السابقة على توليد المفاهيم التي لديها علاقات مبا
في هذا العمل، نستفيد المعرفة المنوية في شكل مسارات المعرفة لإقامة صلات بين الجمل، كشكل من أشكال تفسير المعرفة الضمنية. يمكن أن تكون هذه الاتصالات مباشرة (مسارات مفردة) أو تتطلب مفاهيم وسيطة (مسارات Multihop). لبناء مثل هذه المسارات تجمع بين نوعين نمو
أظهرت نماذج واسعة النطاق على نطاق واسع عروضا قوية على العديد من توليد اللغة الطبيعية وفهم المعايير.ومع ذلك، فإن إدخال العمولة فيها لتوليد نص أكثر واقعية يظل تحديا.مستوحاة من العمل السابق على جيل المعرفة المنطقي ومنطق العموم التوليد، نقدم طريقتين لإضا