كن حذرا حول تضييق كلمة تسمم: استكشاف ضعف طبقات التضمين في نماذج NLP


الملخص بالعربية

كشفت الدراسات الحديثة عن تهديد أمني لنماذج معالجة اللغة الطبيعية (NLP)، تسمى هجوم الوكيل. يمكن أن تحافظ نماذج الضحايا الحفاظ على أداء تنافسي على عينات نظيفة أثناء التصرف بشكل غير واضح على العينات ذات كلمة مشغلة محددة إدراجها. عادة ما تتحمل أساليب المهاجمة السابقة أن المهاجمين لديهم درجة معينة من المعرفة بالبيانات، إما مجموعة البيانات التي يستخدمها المستخدمون أو مجموعات البيانات الوكيل لمهمة مماثلة، لتنفيذ إجراء تسمم البيانات. ومع ذلك، في هذه الورقة، نجد أنه من الممكن اختراق النموذج بطريقة خالية من البيانات عن طريق تعديل ناقلات كلمة واحدة تضمينها، مع عدم التضحية بدقة تقريبا على عينات نظيفة. تظهر النتائج التجريبية على تحليل المعنويات ومهام تصنيف زوج الجملة أن طريقتنا أكثر كفاءة وسيلة كريهة. نأمل أن يرفع هذا العمل الوعي بمثل هذا المخاطر الأمنية الحرجة المخفية في طبقات تضمين نماذج NLP. يتوفر الكود الخاص بنا في https://github.com/lancopku/mbedding-poisioning.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث