التحديات في نماذج لغة السموم


الملخص بالعربية

تولد نماذج اللغة الكبيرة (LM) نص بطلاقة بشكل ملحوظ ويمكن تكييفها بكفاءة عبر مهام NLP. قياس وضمان جودة النص الذي تم إنشاؤه من حيث السلامة أمر ضروري لنشر LMS في العالم الحقيقي؛ تحقيقا لهذه الغاية، غالبا ما يعتمد العمل السابق على التقييم التلقائي لسمية LM. نناقش هذا النهج بشكل خطير، وتقييم العديد من استراتيجيات تخفيف السمية فيما يتعلق بالتقييم التلقائي والبشري، وتحليل عواقب التخفيف من السمية من حيث التحيز النموذجي وجودة LM. نوضح أنه في حين أن استراتيجيات التدخل الأساسية يمكن أن تتحسن بشكل فعال مقاييس تلقائية تم تأسيسها مسبقا على مجموعة بيانات Realtoxicyprompts، فإن هذا يأتي عند تكلفة انخفاض تغطية LM لكلا النصوص حول، ولهجات المجموعات المهمشة. بالإضافة إلى ذلك، نجد أن التصدير البشري غالبا ما يختلفون في درجات سمية تلقائية عالية بعد تدخلات تخفيض السمية القوي --- تسليط الضوء على مزيد من الفروق الدقيقة المشاركة في التقييم الدقيق لسامة LM.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث