تعرض أمثلة الخصومة نقاط الضعف في نماذج معالجة اللغة الطبيعية (NLP)، ويمكن استخدامها لتقييم وتحسين متواضتهم. عادة ما تكون التقنيات الحالية لتوليد هذه الأمثلة تحركها القواعد المتخذة المحلية غير الملأمة في السياق، وغالبا ما تؤدي إلى مخرجات غير طبيعية وغير طبيعية. تقدم هذه الورقة كلير، وهو نموذج توليد مثال لمصدري محوري ينتج مخرجات بطلاقة وحكومية من خلال إجراءات قناع ثم تسلل. بناء Clare على نموذج لغة ملثم مسبقا مسبقا وتعديل المدخلات بطريقة تدرك السياق. نقترح ثلاث اضطرابات سياق، واستبدال وإدراج ودمج، والتي تسمح بتوليد مخرجات أطوال متنوعة. يمكن أن تجمع كلير بمرونة هذه الاضطرابات وتطبيقها في أي موقف في المدخلات، وبالتالي فهي قادرة على مهاجمة نموذج الضحية بشكل أكثر فعالية مع تعديلات أقل. توضح التجارب الواسعة والتقييم البشري أن كلير تتفوق على خطوط الأساس من حيث معدل النجاح الهجوم، والتشابه النصي والطلاقة والنحوية.
Adversarial examples expose the vulnerabilities of natural language processing (NLP) models, and can be used to evaluate and improve their robustness. Existing techniques of generating such examples are typically driven by local heuristic rules that are agnostic to the context, often resulting in unnatural and ungrammatical outputs. This paper presents CLARE, a ContextuaLized AdversaRial Example generation model that produces fluent and grammatical outputs through a mask-then-infill procedure. CLARE builds on a pre-trained masked language model and modifies the inputs in a context-aware manner. We propose three contextualized perturbations, Replace, Insert and Merge, that allow for generating outputs of varied lengths. CLARE can flexibly combine these perturbations and apply them at any position in the inputs, and is thus able to attack the victim model more effectively with fewer edits. Extensive experiments and human evaluation demonstrate that CLARE outperforms the baselines in terms of attack success rate, textual similarity, fluency and grammaticality.
المراجع المستخدمة
https://aclanthology.org/
في الآونة الأخيرة، تصبح نماذج الهجوم المصنوع النصي شعبية بشكل متزايد بسبب نجاحها في تقدير نماذج NLP. ومع ذلك، فإن المصنفات الموجودة لها أوجه قصور واضحة. (1) عادة ما يفكرون فقط بتعبئة واحدة من استراتيجيات التعديل (على سبيل المثال Word-level-level-leve
يستخدم تعليم التمثيل على نطاق واسع في NLP لمجموعة واسعة من المهام.ومع ذلك، غالبا ما تعكس التمثيلات المستمدة من Text Corpora التحيزات الاجتماعية.هذه الظاهرة منتشرة ومتسقة عبر نماذج عصبية مختلفة، مما تسبب في قلق شديد.تعتمد الأساليب السابقة في الغالب عل
تعد نماذج معالجة وأمن معالجة اللغة الطبيعية (NLP) مهمة بشكل ملحوظ في تطبيقات العالم الحقيقي. في سياق مهام تصنيف النص، يمكن تصميم أمثلة الخصومة من خلال استبدال الكلمات مع المرادفات تحت بعض القيود الدلالية والمنظمات الأساسية، بحيث يكون نموذج مدرب جيدا
نقدم خوارزمية تدريبية مستهدفة بسيطة ولكنها فعالة (TAT) لتحسين التدريب الخصم لفهم اللغة الطبيعية.الفكرة الرئيسية هي أن تخطئ الأخطاء الحالية وتحديد أولويات التدريب على الخطوات إلى حيث يخطئ النموذج أكثر.تظهر التجارب أن TAT يمكن أن تحسن بشكل كبير الدقة ع
تصف هذه الورقة نموذجا مدمجا وفعالا لاسترجاع مرور الكمون المنخفض في البحث عن المحادثة بناء على تمثيلات كثيفة علمية. قبل عملنا، يستخدم النهج الواحد من بين الفنون خط أنابيب متعدد المراحل يشتمل على وحدات إعادة صياغة استعلام محادثة واسترجاع المعلومات. على