ترغب بنشر مسار تعليمي؟ اضغط هنا

هجمات الخصومة تغيير تنبؤات نموذج NLP من خلال اضطراب مدخلات وقت الاختبار.ومع ذلك، فمن الأقل تفهم سواء، وكيف يمكن التلاعب بالتنبؤات مع تغييرات صغيرة مخفية في بيانات التدريب.في هذا العمل، نقوم بتطوير هجوم جديد لتسمم البيانات يتيح خصما للسيطرة على تنبؤات النموذج كلما كانت عبارة الزناد المرغوبة موجودة في المدخلات.على سبيل المثال، ندرج 50 أمثلة سامة في مجموعة تدريب طراز المعنويات التي تسبب النموذج يتوقع بشكل متكرر إيجابية كلما كان الإدخال يحتوي على جيمس بوند ".من الأهمية، نحن نقوم بتحرير هذه الأمثلة السامة باستخدام إجراء يستند إلى التدرج حتى لا يذكر عبارة الزناد.نحن نطبق أيضا هجوم السم لدينا على نمذجة اللغة (تشغيل Apple iPhone "يؤدي إلى الأجيال السلبية) والترجمة الآلية (" القهوة المثلجة "التي يتم إساءة فهمها كقهوة ساخنة").نستنتج من خلال اقتراح ثلاثة دفاعات يمكن أن تخفف من هجومنا على بعض التكلفة في دقة التنبؤ أو الشرح البشري الإضافي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا