تخفيف تسمم البيانات في تصنيف النص مع الخصوصية التفاضلية


الملخص بالعربية

نماذج NLP عرضة لهجمات تسمم البيانات.يمكن لنوع واحد من الهجوم زرع الأبعاد في نموذج عن طريق حقن الأمثلة المسمولة في التدريب، مما تسبب في نموذج الضحية لإضاءة مثيلات الاختبار التي تتضمن نمطا محددا.على الرغم من أن الدفاعات موجودة لمواجهة هذه الهجمات، فهي محددة لنوع هجوم أو نمط.في هذه الورقة، نقترح آلية دفاعية عامة من خلال جعل عملية التدريب قوية للتسمم بالهجمات من خلال طرق تشكيل التدرج، بناء على التدريب الخاص بشكل مختلف.نظهر أن طريقتنا فعالة للغاية في التخفيف، أو حتى القضاء على الهجمات التسمم على تصنيف النص، مع تكلفة صغيرة فقط في دقة التنبؤية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث