الهجمات الخصومة العالمية مع المشغلات الطبيعية لتصنيف النص


الملخص بالعربية

أظهر العمل الحديث مدى ضعف مصنف النصوص الحديثة للهجمات الخصومة العالمية، والتي هي تسلسل مدخلات غير مرغقة من الكلمات المضافة إلى النص المصنوع من قبل المصنفين. على الرغم من أن تكون ناجحة، فإن تسلسل الكلمات المنتجة في هذه الهجمات غالبا ما تكون غير رسمية ويمكن تمييزها بسهولة عن النص الطبيعي. نقوم بتطوير هجمات عدائية تظهر أقرب إلى عبارات اللغة الإنجليزية الطبيعية وحتى الآن أنظمة التصنيف عند إضافتها إلى المدخلات الحميدة. نحن نستفيد من AutoNCoder المنعصنة (ARAE) لتوليد المشغلات واقتراح بحث يستند إلى التدرج يهدف إلى زيادة فقدان تنبؤ التنبؤ بالتنبؤ في المصب. تقلل هجماتنا بشكل فعال دقة النموذج على مهام التصنيف مع كونها أقل تحديدا من النماذج السابقة وفقا لمقاييس الكشف التلقائي والدراسات البشرية. هدفنا هو إثبات أن الهجمات المشنة يمكن أن تكتشف أكثر صعوبة مما كان يعتقد سابقا وتمكين تطوير الدفاعات المناسبة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث