ترغب بنشر مسار تعليمي؟ اضغط هنا

تنظيم الخصوصية: تحسين الخصوصية المضادة للخصوصية في LanguageModels

Privacy Regularization: Joint Privacy-Utility Optimization in LanguageModels

374   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

من المعروف أن نماذج اللغة العصبية لديها سعة عالية لتحفيظ عينات التدريب.قد يكون لهذا تصرفات خصوصية خطيرة عند نماذج التدريب على محتوى المستخدم مثل مراسلات البريد الإلكتروني.يأتي الخصوصية التفاضلية (DP)، وهو خيار شعبي لتدريب النماذج مع ضمانات الخصوصية، بتكاليف كبيرة من حيث تدهور المرافق والتأثير المتباين على المجموعات الفرعية للمستخدمين.في هذا العمل، نقدم طريقتين مع الحفاظ على الخصوصية لنماذج اللغة التدريبية التي تمكن التحسين المشترك للأداة المساعدة والخصوصية من خلال (1) استخدام تمييزي (2) إدراج مصطلح خسائر ثلاثية جديدة.نقارن أساليبنا مع موانئ دبي من خلال تقييم واسع النطاق.نظهر مزايا المتداولين لدينا مع مفاضلة خصوصية فائدة مواتية، تدرب أسرع مع القدرة على الاستفادة من أساليب التحسين الحالية، وضمان علاج موحد للمجموعات الفرعية الممثلة تمثيلا ممثلي.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعتمد نماذج التعلم العميق الحديثة لمعالجة اللغة الطبيعية بشكل كبير على كميات كبيرة من النصوص المشروح.ومع ذلك، قد يكون الحصول على مثل هذه النصوص صعبة عندما تحتوي على معلومات شخصية أو سرية، على سبيل المثال، في المجالات الصحية أو القانونية.في هذا العمل، نقترح طريقة لإلغاء تحديد المستندات النصية النموذج الحرة من خلال تقسيم البيانات الحساسة بعناية فيها.نظهر أن طريقتنا تحافظ على الأداة المساعدة للبيانات لتصنيف النصوص ووضع التسلسل والتسجيل الإجابة على المهام.
غالبا ما يتم استخدام مخصصات Dirichlet الكامنة (LDA)، وهو نموذج موضوع يستخدم على نطاق واسع كأداة أساسية لتحليل النص في التطبيقات المختلفة. ومع ذلك، فإن عملية التدريب لنموذج LDA عادة ما تتطلب بيانات كوربوس نصية ضخمة. من ناحية، قد تعرض هذه البيانات الضخ مة معلومات خاصة في بيانات التدريب، وبالتالي تكبد شواغل الخصوصية الهامة. من ناحية أخرى، قد تتأثر كفاءة التدريب لنموذج LDA، لأن تدريب LDA يحتاج غالبا إلى التعامل مع بيانات كوربوس النص الضخمة. لمعالجة مشكلات الخصوصية في التدريب النموذجي LDA، جمعت بعض الأعمال الحديثة خوارزميات تدريب LDA التي تستند إلى أخذ عينات Gibbs المنهارة (CGS) مع خصوصية تفاضلية. ومع ذلك، فإن هذه الأعمال عادة ما يكون لها ميزانية خصوصية تراكمية عالية بسبب التكرارات الشاسعة في CGS. علاوة على ذلك، فإن هذه الأعمال لديها دائما كفاءة منخفضة بسبب التعامل مع بيانات Corpus النص الضخمة. لتحسين ضمان الخصوصية والكفاءة، نجمع بين طريقة فرعية مع CGS واقتراح خوارزمية تدريب LDA الجديدة مع خصوصية تفاضلية، فرعية LDA. نجد أن التعيين في CGS يحسن بشكل طبيعي الكفاءة أثناء تضخيم الخصوصية. نقترح أداة متري جديدة، وكفاءة - وظيفة الخصوصية، لتقييم تحسينات ضمان الخصوصية والكفاءة. استنادا إلى طريقة فرعية تقليدية، نقترح طريقة عمل قضائية على التكيف لتحسين فائدة النموذج التي تنتجها فرعية LDA عندما تكون النسبة الفرعية صغيرة. نحن نقدم تحليلا شاملا ل Sub-LDA، وتقييم نتائج التجربة تحسيناتها وضمان خصوصيتها.
نماذج NLP عرضة لهجمات تسمم البيانات.يمكن لنوع واحد من الهجوم زرع الأبعاد في نموذج عن طريق حقن الأمثلة المسمولة في التدريب، مما تسبب في نموذج الضحية لإضاءة مثيلات الاختبار التي تتضمن نمطا محددا.على الرغم من أن الدفاعات موجودة لمواجهة هذه الهجمات، فهي محددة لنوع هجوم أو نمط.في هذه الورقة، نقترح آلية دفاعية عامة من خلال جعل عملية التدريب قوية للتسمم بالهجمات من خلال طرق تشكيل التدرج، بناء على التدريب الخاص بشكل مختلف.نظهر أن طريقتنا فعالة للغاية في التخفيف، أو حتى القضاء على الهجمات التسمم على تصنيف النص، مع تكلفة صغيرة فقط في دقة التنبؤية.
تعد نماذج معالجة وأمن معالجة اللغة الطبيعية (NLP) مهمة بشكل ملحوظ في تطبيقات العالم الحقيقي. في سياق مهام تصنيف النص، يمكن تصميم أمثلة الخصومة من خلال استبدال الكلمات مع المرادفات تحت بعض القيود الدلالية والمنظمات الأساسية، بحيث يكون نموذج مدرب جيدا سيعطي تنبؤا خاطئا. لذلك، من الأهمية بمكان تطوير تقنيات لتوفير ضمان قوي وقضايا ضد هذه الهجمات. في هذه الورقة، نقترح WordDP لتحقيق متانة مصدقة ضد استبدال الكلمات في تصنيف النص عن طريق الخصوصية التفاضلية (DP). نحدد العلاقة بين موانئ دبي والمودة القومية لأول مرة في المجال النصي واقتراح خوارزمية قائمة على الآلية المفاهيمية التي تعتمد على الآلية لتحقيق القابة رسميا. ونحن نقدم كذلك آلية أسيانية محاكاة عملية لها استنتاج فعال مع متانة معتمدة. نحن لا نقدم فقط اشتقاق تحليلي صارم للحالة المعتمدة ولكن أيضا مقارنة فائدة WordDP أيضا بشكل تجريبي مع خوارزميات الدفاع الحالية. تظهر النتائج أن WordDP تحقق دقة أعلى وأكثر من 30x تحسن كفاءة على آلية متانة حديثة معتمدة في مهام تصنيف النص النموذجي.
نحن برعاية Wikipii، وهي مجموعة بيانات مسمى تلقائيا تتكون من صفحات سيرة Wikipedia، مشروحة لاستخراج المعلومات الشخصية. على الرغم من أن التوضيح التلقائي يمكن أن يؤدي إلى درجة عالية من الضوضاء التسمية، إلا أنها عملية غير مكلفة ويمكن أن تولد كميات كبيرة م ن المستندات المشروح. قمنا بتدريب نموذج NER مقره BERT مع Wikipii وأظهر أنه مع مجموعة بيانات تدريبية كبيرة بشكل مناسب، يمكن أن يقلل النموذج بشكل كبير من تكلفة استخراج المعلومات اليدوية، على الرغم من المستوى العالي من الضوضاء التسمية. في نهج مماثل، يمكن للمنظمات الاستفادة من تقنيات التعدين النصية لإنشاء مجموعات بيانات مخصصة مشروحة من بياناتها التاريخية دون مشاركة البيانات الخام للتعليق البشري البشري. أيضا، نستكشف التدريب التعاوني للنماذج NER من خلال التعلم الفيدرالي عندما يكون التوضيحي صاخبا. تشير نتائجنا إلى أنه اعتمادا على مستوى الثقة إلى مشغل ML وحجم البيانات المتاحة، يمكن أن يكون التدريب الموزع طريقة فعالة لتدريب معرف معلومات شخصي بطريقة محفوظة خصوصية. المواد البحثية متاحة في https://github.com/ratmcu/wikipiifed.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا