ترغب بنشر مسار تعليمي؟ اضغط هنا

مخفي هجمات تسمم البيانات على نماذج NLP

Concealed Data Poisoning Attacks on NLP Models

219   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

هجمات الخصومة تغيير تنبؤات نموذج NLP من خلال اضطراب مدخلات وقت الاختبار.ومع ذلك، فمن الأقل تفهم سواء، وكيف يمكن التلاعب بالتنبؤات مع تغييرات صغيرة مخفية في بيانات التدريب.في هذا العمل، نقوم بتطوير هجوم جديد لتسمم البيانات يتيح خصما للسيطرة على تنبؤات النموذج كلما كانت عبارة الزناد المرغوبة موجودة في المدخلات.على سبيل المثال، ندرج 50 أمثلة سامة في مجموعة تدريب طراز المعنويات التي تسبب النموذج يتوقع بشكل متكرر إيجابية كلما كان الإدخال يحتوي على جيمس بوند ".من الأهمية، نحن نقوم بتحرير هذه الأمثلة السامة باستخدام إجراء يستند إلى التدرج حتى لا يذكر عبارة الزناد.نحن نطبق أيضا هجوم السم لدينا على نمذجة اللغة (تشغيل Apple iPhone "يؤدي إلى الأجيال السلبية) والترجمة الآلية (" القهوة المثلجة "التي يتم إساءة فهمها كقهوة ساخنة").نستنتج من خلال اقتراح ثلاثة دفاعات يمكن أن تخفف من هجومنا على بعض التكلفة في دقة التنبؤ أو الشرح البشري الإضافي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نماذج NLP عرضة لهجمات تسمم البيانات.يمكن لنوع واحد من الهجوم زرع الأبعاد في نموذج عن طريق حقن الأمثلة المسمولة في التدريب، مما تسبب في نموذج الضحية لإضاءة مثيلات الاختبار التي تتضمن نمطا محددا.على الرغم من أن الدفاعات موجودة لمواجهة هذه الهجمات، فهي محددة لنوع هجوم أو نمط.في هذه الورقة، نقترح آلية دفاعية عامة من خلال جعل عملية التدريب قوية للتسمم بالهجمات من خلال طرق تشكيل التدرج، بناء على التدريب الخاص بشكل مختلف.نظهر أن طريقتنا فعالة للغاية في التخفيف، أو حتى القضاء على الهجمات التسمم على تصنيف النص، مع تكلفة صغيرة فقط في دقة التنبؤية.
كشفت الدراسات الحديثة عن تهديد أمني لنماذج معالجة اللغة الطبيعية (NLP)، تسمى هجوم الوكيل. يمكن أن تحافظ نماذج الضحايا الحفاظ على أداء تنافسي على عينات نظيفة أثناء التصرف بشكل غير واضح على العينات ذات كلمة مشغلة محددة إدراجها. عادة ما تتحمل أساليب الم هاجمة السابقة أن المهاجمين لديهم درجة معينة من المعرفة بالبيانات، إما مجموعة البيانات التي يستخدمها المستخدمون أو مجموعات البيانات الوكيل لمهمة مماثلة، لتنفيذ إجراء تسمم البيانات. ومع ذلك، في هذه الورقة، نجد أنه من الممكن اختراق النموذج بطريقة خالية من البيانات عن طريق تعديل ناقلات كلمة واحدة تضمينها، مع عدم التضحية بدقة تقريبا على عينات نظيفة. تظهر النتائج التجريبية على تحليل المعنويات ومهام تصنيف زوج الجملة أن طريقتنا أكثر كفاءة وسيلة كريهة. نأمل أن يرفع هذا العمل الوعي بمثل هذا المخاطر الأمنية الحرجة المخفية في طبقات تضمين نماذج NLP. يتوفر الكود الخاص بنا في https://github.com/lancopku/mbedding-poisioning.
التحيز بين الجنسين هو حدوث متكرر في التطبيقات القائمة على البرامج الوطنية للتنمية الوطنية، وخاصة وضوحا باللغات التي يتم تنشيطها بين الجنسين. يمكن أن تظهر التحيز من خلال جمعيات بعض الصفات وتحريك الأسماء مع الجنس الطبيعي للإرازات، ولكن أيضا بسبب التردد ات الجنسانية النحوية غير الموازنة من الكلمات المصدرة. يصبح هذا النوع من التحيز أكثر وضوحا في توليد ينصوصات التحدث حيث لا يتم تحديد النوع الاجتماعي داخل الجملة، لأن معظم تطبيقات NLP الحالية لا تزال تعمل على سياق مستوى الجملة. كخطوة نحو NLP أكثر شمولية، تقترح هذه الورقة نهجا تلقائيا وعموما إعادة كتابة جمل محادثة قصيرة. يمكن تطبيق طريقة إعادة كتابة على الجمل التي، دون سياق خارجي، لديها بدائل مكافئة متعددة من حيث الجنس. يمكن تطبيق الطريقة على إنشاء مخرجات متوازنة بين الجنسين وكذلك لإنشاء بيانات تدريب متوازنة بين الجنسين. يعتمد النهج المقترح على نظام ترجمة آلية عصبية مدربة على ترجمة "من نوع جنسي إلى آخر. إظهار كل من التحليل الأوتوماتيكي واليدوي للنهج النتائج الواعدة فيما يتعلق بالجيل التلقائي من البدائل الجنسانية لجمل المحادثة باللغة الإسبانية.
شهدت مشكلة تصميم حلول NLP لمشاكل كلمة الرياضيات (MWP) نشاط بحثي مستمر ومكاسب ثابتة في دقة الاختبار. نظرا لأن الحلفل الموجودين يحققون أداء عاليا على مجموعات البيانات القياسية للمستوى الابتدائي الذي يحتوي على مشاكل في الكلمات الحسابية المجهولة الأولى، إلا أن هذه المشكلات غالبا ما يتم حلها في كثير من الأحيان "مع الجزء الأكبر من الاهتمام بالبحث إلى MWPS أكثر تعقيدا. في هذه الورقة، قصرنا انتباهنا إلى اللغة الإنجليزية MWPs تدرس في الصفوف الأربعة والأقل. نحن نقدم دليلا قويا على أن وحدات MWP الحالية تعتمد على الاستدلال الضحلة لتحقيق أداء عال في مجموعات البيانات القياسية. تحقيقا لهذه الغاية، نظهر أن حفلات MWP التي لا تملك الوصول إلى السؤال المطلوب في MWP، لا يزال بإمكانك حل جزء كبير من MWPS. وبالمثل، فإن النماذج التي تعالج mwps كحقيبة من الكلمات يمكن أن تحقق أيضا دقة عالية بشكل مدهش. علاوة على ذلك، نقدم مجموعة بيانات تحدي، Svamp، تم إنشاؤها من خلال تطبيق الاختلافات المختارة بعناية على الأمثلة التي تم أخذ عينات منها من مجموعات البيانات الحالية. إن أفضل الدقة التي تحققت بها النماذج الحديثة أقل بكثير على Svamp، وبالتالي إظهار الكثير لا يزال يتعين القيام به حتى لأبسط MWPS.
دفعت الشبكات العصبية العميقة باستمرار الأداء الحديث في معالجة اللغة الطبيعية ويعتبر نهج النمذجة في الواقع في حل مهام NLP المعقدة مثل الترجمة الآلية والتلخيص والرد على السؤال. على الرغم من الفعالية المثبتة للشبكات العصبية العميقة، فإن معرضهم هو سبب رئ يسي للقلق. في هذا البرنامج التعليمي، سنقدم أعمال البحث في تفسير مكونات الرواية الدقيقة لطراز الشبكة العصبية من وجهات نظر، ط) ترجمة التفسير الدقيقة، والثاني) تحليل السببية. السابق هو فئة من الأساليب لتحليل الخلايا العصبية فيما يتعلق بمفهوم اللغة المطلوب أو مهمة. تدرس الأخير دور الخلايا العصبية وميزات المدخلات في شرح القرارات التي اتخذها النموذج. سنناقش أيضا كيف يمكن لأساليب التفسير وتحليل السببية الاتصال بتثبيته بشكل أفضل لتنبؤ النموذج. أخيرا، سوف نسير إليك من خلال مجموعة أدوات مختلفة تسهل تحليل التفسير والسبابة الراسخة من النماذج العصبية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا