نقترح أول هجوم مقاوم للتدرج على المستوى العام على نماذج المحولات.بدلا من البحث عن مثال خصم واحد، نبحث عن توزيع الأمثلة الخصومة المعلمة بواسطة مصفوفة مستمرة قيمة، وبالتالي تمكين التحسين المستندة إلى التدرج.إننا نوضح تجريبيا أن هجومنا الأبيض الخاص بنا
يصل إلى أداء الهجوم الحديثة في مجموعة متنوعة من المهام اللغوية الطبيعية، مما يتفوق على العمل السابق من حيث معدل النجاح العديي مع مطابقة غير محسنة حسب التقييم الآلي والبشري.علاوة على ذلك، نظير على أن هجوم قوي عبر الصندوق الأسود، تم تمكينه بواسطة أخذ العينات من التوزيع العديزي أو يطابق أو يتجاوز الطرق الحالية، في حين يتطلب فقط مخرجات التسمية الصعبة.
أظهر العمل الحديث مدى ضعف مصنف النصوص الحديثة للهجمات الخصومة العالمية، والتي هي تسلسل مدخلات غير مرغقة من الكلمات المضافة إلى النص المصنوع من قبل المصنفين. على الرغم من أن تكون ناجحة، فإن تسلسل الكلمات المنتجة في هذه الهجمات غالبا ما تكون غير رسمية
ويمكن تمييزها بسهولة عن النص الطبيعي. نقوم بتطوير هجمات عدائية تظهر أقرب إلى عبارات اللغة الإنجليزية الطبيعية وحتى الآن أنظمة التصنيف عند إضافتها إلى المدخلات الحميدة. نحن نستفيد من AutoNCoder المنعصنة (ARAE) لتوليد المشغلات واقتراح بحث يستند إلى التدرج يهدف إلى زيادة فقدان تنبؤ التنبؤ بالتنبؤ في المصب. تقلل هجماتنا بشكل فعال دقة النموذج على مهام التصنيف مع كونها أقل تحديدا من النماذج السابقة وفقا لمقاييس الكشف التلقائي والدراسات البشرية. هدفنا هو إثبات أن الهجمات المشنة يمكن أن تكتشف أكثر صعوبة مما كان يعتقد سابقا وتمكين تطوير الدفاعات المناسبة.