ترغب بنشر مسار تعليمي؟ اضغط هنا

اضطراب السياق لهجوم الخصم النصي

Contextualized Perturbation for Textual Adversarial Attack

525   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعرض أمثلة الخصومة نقاط الضعف في نماذج معالجة اللغة الطبيعية (NLP)، ويمكن استخدامها لتقييم وتحسين متواضتهم. عادة ما تكون التقنيات الحالية لتوليد هذه الأمثلة تحركها القواعد المتخذة المحلية غير الملأمة في السياق، وغالبا ما تؤدي إلى مخرجات غير طبيعية وغير طبيعية. تقدم هذه الورقة كلير، وهو نموذج توليد مثال لمصدري محوري ينتج مخرجات بطلاقة وحكومية من خلال إجراءات قناع ثم تسلل. بناء Clare على نموذج لغة ملثم مسبقا مسبقا وتعديل المدخلات بطريقة تدرك السياق. نقترح ثلاث اضطرابات سياق، واستبدال وإدراج ودمج، والتي تسمح بتوليد مخرجات أطوال متنوعة. يمكن أن تجمع كلير بمرونة هذه الاضطرابات وتطبيقها في أي موقف في المدخلات، وبالتالي فهي قادرة على مهاجمة نموذج الضحية بشكل أكثر فعالية مع تعديلات أقل. توضح التجارب الواسعة والتقييم البشري أن كلير تتفوق على خطوط الأساس من حيث معدل النجاح الهجوم، والتشابه النصي والطلاقة والنحوية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في الآونة الأخيرة، تصبح نماذج الهجوم المصنوع النصي شعبية بشكل متزايد بسبب نجاحها في تقدير نماذج NLP. ومع ذلك، فإن المصنفات الموجودة لها أوجه قصور واضحة. (1) عادة ما يفكرون فقط بتعبئة واحدة من استراتيجيات التعديل (على سبيل المثال Word-level-level-leve l)، وهو غير كاف لاستكشاف الفضاء النصي الشامل للجيل؛ (2) يحتاجون إلى الاستعلام عن نماذج الضحية مئات المرات لإجراء هجوم ناجح، وهو غير فعال للغاية في الممارسة العملية. لمعالجة هذه المشكلات، في هذه الورقة نقترح Maya، نموذج هجوم متعدد الحبيبات لتوليد عينات خصومة عالية الجودة عالية الجودة مع استعلامات أقل من نماذج الضحايا. علاوة على ذلك، نقترح طريقة تعتمد على التعزيز لتدريب وكيل هجوم متعدد التحبيب من خلال استنساخ السلوك مع معرفة الخبراء من خوارزمية مايا لدينا لتقليل أوقات الاستعلام. بالإضافة إلى ذلك، نقوم أيضا بتكييف الوكيل لمهاجمة نماذج الصندوق الأسود التي تستلزمات الإخراج فقط دون درجات الثقة. نحن نقوم بإجراء تجارب شاملة لتقييم نماذج الهجوم لدينا عن طريق مهاجمة Bilstm و Bert and Roberta في إعدادات هجوم سوداء مختلفة وثلاثة مجموعات بيانات معيار. تظهر النتائج التجريبية أن نماذجنا تحقق أداء مهاجم بشكل عام وتنتج عينات خصومة أكثر بطلاقة وحلال قوسنة مقارنة بالنماذج الأساسية. علاوة على ذلك، يقلل وكيل الهجوم الخاص بنا بشكل كبير من أوقات الاستعلام في كلا من إعدادات الهجوم. يتم إصدار رموزنا في https://github.com/yangyi-chen/maya.
يستخدم تعليم التمثيل على نطاق واسع في NLP لمجموعة واسعة من المهام.ومع ذلك، غالبا ما تعكس التمثيلات المستمدة من Text Corpora التحيزات الاجتماعية.هذه الظاهرة منتشرة ومتسقة عبر نماذج عصبية مختلفة، مما تسبب في قلق شديد.تعتمد الأساليب السابقة في الغالب عل ى اتجاه محدد مسبقا أو مقدم من المستخدم أو يعاني من التدريب غير المستقر.في هذه الورقة، نقترح نموذجا للدوائر المنفذة من الخصومة إلى Decouple Decouple Socied Socials من التمثيلات المتوسطة المدربة على المهمة الرئيسية.نحن نهدف إلى Denoise معلومات التحيز أثناء التدريب على مهمة المصب، بدلا من إزالة التحيز الاجتماعي ومتابعة التمثيلات غير المتحيزة الثابتة.تظهر التجارب فعالية طريقتنا، سواء على تأثير الدخل وأداء المهمة الرئيسية.
تعد نماذج معالجة وأمن معالجة اللغة الطبيعية (NLP) مهمة بشكل ملحوظ في تطبيقات العالم الحقيقي. في سياق مهام تصنيف النص، يمكن تصميم أمثلة الخصومة من خلال استبدال الكلمات مع المرادفات تحت بعض القيود الدلالية والمنظمات الأساسية، بحيث يكون نموذج مدرب جيدا سيعطي تنبؤا خاطئا. لذلك، من الأهمية بمكان تطوير تقنيات لتوفير ضمان قوي وقضايا ضد هذه الهجمات. في هذه الورقة، نقترح WordDP لتحقيق متانة مصدقة ضد استبدال الكلمات في تصنيف النص عن طريق الخصوصية التفاضلية (DP). نحدد العلاقة بين موانئ دبي والمودة القومية لأول مرة في المجال النصي واقتراح خوارزمية قائمة على الآلية المفاهيمية التي تعتمد على الآلية لتحقيق القابة رسميا. ونحن نقدم كذلك آلية أسيانية محاكاة عملية لها استنتاج فعال مع متانة معتمدة. نحن لا نقدم فقط اشتقاق تحليلي صارم للحالة المعتمدة ولكن أيضا مقارنة فائدة WordDP أيضا بشكل تجريبي مع خوارزميات الدفاع الحالية. تظهر النتائج أن WordDP تحقق دقة أعلى وأكثر من 30x تحسن كفاءة على آلية متانة حديثة معتمدة في مهام تصنيف النص النموذجي.
نقدم خوارزمية تدريبية مستهدفة بسيطة ولكنها فعالة (TAT) لتحسين التدريب الخصم لفهم اللغة الطبيعية.الفكرة الرئيسية هي أن تخطئ الأخطاء الحالية وتحديد أولويات التدريب على الخطوات إلى حيث يخطئ النموذج أكثر.تظهر التجارب أن TAT يمكن أن تحسن بشكل كبير الدقة ع لى التدريب الخصم القياسي على الغراء وتحقيق نتائج جديدة من أحدث النتائج في XNLI.سيتم إصدار شفرة لدينا عند قبول الورقة.
تصف هذه الورقة نموذجا مدمجا وفعالا لاسترجاع مرور الكمون المنخفض في البحث عن المحادثة بناء على تمثيلات كثيفة علمية. قبل عملنا، يستخدم النهج الواحد من بين الفنون خط أنابيب متعدد المراحل يشتمل على وحدات إعادة صياغة استعلام محادثة واسترجاع المعلومات. على الرغم من فعاليته، غالبا ما يتضمن هذا الخط الأنابيب نماذج عصبية متعددة تتطلب أوقات الاستدلال الطويلة. بالإضافة إلى ذلك، تحسين كل وحدة بشكل مستقل يتجاهل التبعيات بينهم. لمعالجة هذه العيوب، نقترح دمج إعادة صياغة استعلام المحادثة مباشرة في نموذج استرجاع كثيف. للمساعدة في هذا الهدف، نقوم بإنشاء مجموعة بيانات مع ملصقات ذات صلة زائفة للبحث عن المحادثة للتغلب على عدم وجود بيانات تدريب واستكشاف استراتيجيات تدريب مختلفة. نوضح أن نموذجنا يعيد كتابة استعلامات المحادثة بشكل فعال كتمثيلات كثيفة في البحث عن المحادثة والفتح عن نطاق البيانات. أخيرا، بعد مراعاة أن طرازنا يتعلم ضبط نموذج L2 من Arquer Token Ageddings، فإننا نستفيد من هذه الخاصية لاسترجاع الهجين ودعم تحليل الأخطاء.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا