نقترح أول هجوم مقاوم للتدرج على المستوى العام على نماذج المحولات.بدلا من البحث عن مثال خصم واحد، نبحث عن توزيع الأمثلة الخصومة المعلمة بواسطة مصفوفة مستمرة قيمة، وبالتالي تمكين التحسين المستندة إلى التدرج.إننا نوضح تجريبيا أن هجومنا الأبيض الخاص بنا يصل إلى أداء الهجوم الحديثة في مجموعة متنوعة من المهام اللغوية الطبيعية، مما يتفوق على العمل السابق من حيث معدل النجاح العديي مع مطابقة غير محسنة حسب التقييم الآلي والبشري.علاوة على ذلك، نظير على أن هجوم قوي عبر الصندوق الأسود، تم تمكينه بواسطة أخذ العينات من التوزيع العديزي أو يطابق أو يتجاوز الطرق الحالية، في حين يتطلب فقط مخرجات التسمية الصعبة.
We propose the first general-purpose gradient-based adversarial attack against transformer models. Instead of searching for a single adversarial example, we search for a distribution of adversarial examples parameterized by a continuous-valued matrix, hence enabling gradient-based optimization. We empirically demonstrate that our white-box attack attains state-of-the-art attack performance on a variety of natural language tasks, outperforming prior work in terms of adversarial success rate with matching imperceptibility as per automated and human evaluation. Furthermore, we show that a powerful black-box transfer attack, enabled by sampling from the adversarial distribution, matches or exceeds existing methods, while only requiring hard-label outputs.
المراجع المستخدمة
https://aclanthology.org/
الشبكات العصبية العميقة عرضة للهجمات الخصومة، حيث اضطراب صغير في المدخل يغير التنبؤ النموذجي.في كثير من الحالات، يمكن أن تخدع المدخلات الخبيثة عن قصد لنموذج واحد نموذج آخر.في هذه الورقة، نقدم الدراسة الأولى للتحقيق بشكل منهجي في تحويل أمثلة الخصومة ب
اكتسبت أنظمة تلخيص الجماع العصبي تقدما كبيرا في السنوات الأخيرة.ومع ذلك، غالبا ما تنتج تلخيص التلوث في كثير من الأحيان بيانات غير متناسقة أو حقائق كاذبة.كيفية توليد الملخصات التجريدية بشكل كبير تلقائيافي هذه الورقة، اقترحنا نهجا فعالا معزز بيانات تكب
اللغة المكتوبة تحمل تحيزات صريحة وتضيعة يمكن أن تصرفت عن إشارات ذات مغزى. على سبيل المثال، قد تصف خطابات المرجعية المرشحين الذكور والإناث بشكل مختلف، أو قد تكشف أسلوب الكتابة الخاصة بهم بشكل غير مباشر عن الخصائص الديموغرافية. في أحسن الأحوال، يصرف مث
يعتبر التعلم العميق القلب النابض للذكاء الصنعي في السنوات الأخيرة، وفي ظل تراوح تطبيقاته بين السيارات ذاتية القيادة وصولًا إلى التحليلات الطبية وغير ذلك، وقدرته على حل المشاكل المعقدة متفوقًا على الإنسان في الكثير من الأحيان، بدا أننا وصلنا للحل النه
أظهر العمل الحديث مدى ضعف مصنف النصوص الحديثة للهجمات الخصومة العالمية، والتي هي تسلسل مدخلات غير مرغقة من الكلمات المضافة إلى النص المصنوع من قبل المصنفين. على الرغم من أن تكون ناجحة، فإن تسلسل الكلمات المنتجة في هذه الهجمات غالبا ما تكون غير رسمية