اقترح مخطط التعلم الخاص Texthide مؤخرا لحماية البيانات النصية الخاصة أثناء مرحلة التدريب عبر ترميز المثيل المزعوم.نقترح هجوم إعادة الإعمار الجديد لكسر Texthide من خلال استعادة بيانات التدريب الخاص، وبالتالي تكشف النقاب عن مخاطر الخصوصية على ترميز المثيل.لقد صادقنا تجريبيا فعالية هجوم إعادة الإعمار مع مجموعات بيانات شائعة الاستخدام لتصنيف الجملة.إن هجومنا ستقدم تطوير التعلم في الحفاظ على الخصوصية في سياق معالجة اللغة الطبيعية.
A private learning scheme TextHide was recently proposed to protect the private text data during the training phase via so-called instance encoding. We propose a novel reconstruction attack to break TextHide by recovering the private training data, and thus unveil the privacy risks of instance encoding. We have experimentally validated the effectiveness of the reconstruction attack with two commonly-used datasets for sentence classification. Our attack would advance the development of privacy preserving machine learning in the context of natural language processing.
المراجع المستخدمة
https://aclanthology.org/
من أجل تخفيف الطلب الكبير على مجموعات البيانات المشروح للمهام المختلفة، اعتمدت العديد من مجموعات بيانات معالجة اللغات الطبيعية الحديثة خطوط أنابيب آلية للبيانات القابلة للاستخدام السريع. ومع ذلك، فإن التدريب النموذجي مع مثل هذه البيانات يشكل تحديا لأ
الملخص نقدم إطارا جديدا للملقة، دلالات الحدث العصبي (NES)، لفهم اللغة التركيبية التركيبية.يعامل نهجنا جميع الكلمات كصفوفات مصنوعة من التصنيف لتشكيل عقوبة ذات معنى بضرب درجات الإخراج.تنطبق هذه المصنفات على المناطق المكانية (الأحداث) ويمشر NES هيكلها ا
نقدم خوارزمية تدريبية مستهدفة بسيطة ولكنها فعالة (TAT) لتحسين التدريب الخصم لفهم اللغة الطبيعية.الفكرة الرئيسية هي أن تخطئ الأخطاء الحالية وتحديد أولويات التدريب على الخطوات إلى حيث يخطئ النموذج أكثر.تظهر التجارب أن TAT يمكن أن تحسن بشكل كبير الدقة ع
مكنت التقدم في تمثيل اللغة الإنجليزية مهمة أكثر كفاءة عينة من خلال التعلم بكفاءة ترميز يصنف بدائل الرمز المميز بدقة (Electra).أي، بدلا من تدريب نموذج لاستعادة الرموز الممثيلين، يقوم بتدريب نموذج تمييزي على التمييز بين الرموز الإدخال الحقيقية من الرمو
يتم استخدام تقطير المعرفة (KD) على نطاق واسع لضغط ونشر نماذج لغة كبيرة مدربة مسبقا على أجهزة EDGE لتطبيقات العالم الحقيقي.ومع ذلك، فإن مساحة البحث واحدة مهملة هي تأثير الملصقات الصاخبة (التالفة) على KD.نقدم، إلى حد علمنا، أول دراسة حول الملكية الدماغ