هجوم مخدر نصي متعدد الحبيبية مع استنساخ السلوك

نشر في جمعية اللغويات الحاسوبية ACL بتاريخ 2021 في مجال الذكاء الاصناعي والبحث باللغة English تحميل البحث

الملخص بالعربية

في الآونة الأخيرة، تصبح نماذج الهجوم المصنوع النصي شعبية بشكل متزايد بسبب نجاحها في تقدير نماذج NLP. ومع ذلك، فإن المصنفات الموجودة لها أوجه قصور واضحة. (1) عادة ما يفكرون فقط بتعبئة واحدة من استراتيجيات التعديل (على سبيل المثال Word-level-level-level)، وهو غير كاف لاستكشاف الفضاء النصي الشامل للجيل؛ (2) يحتاجون إلى الاستعلام عن نماذج الضحية مئات المرات لإجراء هجوم ناجح، وهو غير فعال للغاية في الممارسة العملية. لمعالجة هذه المشكلات، في هذه الورقة نقترح Maya، نموذج هجوم متعدد الحبيبات لتوليد عينات خصومة عالية الجودة عالية الجودة مع استعلامات أقل من نماذج الضحايا. علاوة على ذلك، نقترح طريقة تعتمد على التعزيز لتدريب وكيل هجوم متعدد التحبيب من خلال استنساخ السلوك مع معرفة الخبراء من خوارزمية مايا لدينا لتقليل أوقات الاستعلام. بالإضافة إلى ذلك، نقوم أيضا بتكييف الوكيل لمهاجمة نماذج الصندوق الأسود التي تستلزمات الإخراج فقط دون درجات الثقة. نحن نقوم بإجراء تجارب شاملة لتقييم نماذج الهجوم لدينا عن طريق مهاجمة Bilstm و Bert and Roberta في إعدادات هجوم سوداء مختلفة وثلاثة مجموعات بيانات معيار. تظهر النتائج التجريبية أن نماذجنا تحقق أداء مهاجم بشكل عام وتنتج عينات خصومة أكثر بطلاقة وحلال قوسنة مقارنة بالنماذج الأساسية. علاوة على ذلك، يقلل وكيل الهجوم الخاص بنا بشكل كبير من أوقات الاستعلام في كلا من إعدادات الهجوم. يتم إصدار رموزنا في https://github.com/yangyi-chen/maya.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث