ترغب بنشر مسار تعليمي؟ اضغط هنا

تعتمد نماذج التعلم العميق الحديثة لمعالجة اللغة الطبيعية بشكل كبير على كميات كبيرة من النصوص المشروح.ومع ذلك، قد يكون الحصول على مثل هذه النصوص صعبة عندما تحتوي على معلومات شخصية أو سرية، على سبيل المثال، في المجالات الصحية أو القانونية.في هذا العمل، نقترح طريقة لإلغاء تحديد المستندات النصية النموذج الحرة من خلال تقسيم البيانات الحساسة بعناية فيها.نظهر أن طريقتنا تحافظ على الأداة المساعدة للبيانات لتصنيف النصوص ووضع التسلسل والتسجيل الإجابة على المهام.
إلغاء تحديد الهوية هي مهمة اكتشاف الكيانات المتعلقة بالخصوصية في النص، مثل أسماء الشخص ورسائل البريد الإلكتروني ومعلومات الاتصال.لقد درست جيدا داخل المجال الطبي.تتزايد الحاجة إلى تكنولوجيا تحديد الهوية، حيث أن التعامل مع البيانات المحفوظة للخصوصية في ارتفاع الطلب في العديد من المجالات.في هذه الورقة، نركز على منشورات الوظيفة.نقدم JobStack، وهي تجسد جديدة لإلغاء تحديد البيانات الشخصية في الوظائف الشاغرة على Stackoverflow.نقدم خطوط أساس، ومقارنة الذاكرة الطويلة الأجل (LSTM) ونماذج المحولات.لتحسين هذه الأساس، نقوم بتجربة تمثيلات Bert، والبيانات المساعدة ذات الصلة بصراحة عبر التعلم متعدد المهام.تظهر نتائجنا أن البيانات الإضافية تساعد في تحسين أداء تحديد الهوية.أثناء تحسين تمثيلات BERT تحسين الأداء، تحولت بيرت فانيليا بشكل مدهش إلى أن تكون أكثر فعالية من بيرت المدربين على البيانات المتعلقة ب Stackoverflow.
من المعروف أن نماذج اللغة العصبية لديها سعة عالية لتحفيظ عينات التدريب.قد يكون لهذا تصرفات خصوصية خطيرة عند نماذج التدريب على محتوى المستخدم مثل مراسلات البريد الإلكتروني.يأتي الخصوصية التفاضلية (DP)، وهو خيار شعبي لتدريب النماذج مع ضمانات الخصوصية، بتكاليف كبيرة من حيث تدهور المرافق والتأثير المتباين على المجموعات الفرعية للمستخدمين.في هذا العمل، نقدم طريقتين مع الحفاظ على الخصوصية لنماذج اللغة التدريبية التي تمكن التحسين المشترك للأداة المساعدة والخصوصية من خلال (1) استخدام تمييزي (2) إدراج مصطلح خسائر ثلاثية جديدة.نقارن أساليبنا مع موانئ دبي من خلال تقييم واسع النطاق.نظهر مزايا المتداولين لدينا مع مفاضلة خصوصية فائدة مواتية، تدرب أسرع مع القدرة على الاستفادة من أساليب التحسين الحالية، وضمان علاج موحد للمجموعات الفرعية الممثلة تمثيلا ممثلي.
تعد نماذج معالجة وأمن معالجة اللغة الطبيعية (NLP) مهمة بشكل ملحوظ في تطبيقات العالم الحقيقي. في سياق مهام تصنيف النص، يمكن تصميم أمثلة الخصومة من خلال استبدال الكلمات مع المرادفات تحت بعض القيود الدلالية والمنظمات الأساسية، بحيث يكون نموذج مدرب جيدا سيعطي تنبؤا خاطئا. لذلك، من الأهمية بمكان تطوير تقنيات لتوفير ضمان قوي وقضايا ضد هذه الهجمات. في هذه الورقة، نقترح WordDP لتحقيق متانة مصدقة ضد استبدال الكلمات في تصنيف النص عن طريق الخصوصية التفاضلية (DP). نحدد العلاقة بين موانئ دبي والمودة القومية لأول مرة في المجال النصي واقتراح خوارزمية قائمة على الآلية المفاهيمية التي تعتمد على الآلية لتحقيق القابة رسميا. ونحن نقدم كذلك آلية أسيانية محاكاة عملية لها استنتاج فعال مع متانة معتمدة. نحن لا نقدم فقط اشتقاق تحليلي صارم للحالة المعتمدة ولكن أيضا مقارنة فائدة WordDP أيضا بشكل تجريبي مع خوارزميات الدفاع الحالية. تظهر النتائج أن WordDP تحقق دقة أعلى وأكثر من 30x تحسن كفاءة على آلية متانة حديثة معتمدة في مهام تصنيف النص النموذجي.
أقرّ المشرع السوري حماية سرية المراسلات البريدية و الاتصالات السلكية و اللاسلكية كحق دستوري و قانوني للإنسان، يعرب بموجبه صراحةً عن نيته في حماية خصوصياته و أسراره المعبرة عن أفكاره و آرائه و حريته في التفكير و الاتصال و تبادل المعلومات، إلا أن هذا لا يعني أن حرية الفرد في هذه السرية مطلقة، بل ترد عليها بعض القيود التي تجيز التنصت و المساس بها تحقيقاً للعدالة و مصلحة المجتمع وفق ما قرره المشرع السوري في قانون أصول المحاكمات الجزائية، كما تدخل المشرع السوري لتكريس حمايتها تارةً في مواجهة الأفراد العاديين، أو في مواجهة من تسول له نفسه إفشائها من الموظفين العموميين تارةً أخرى، إلا أن المشرع السوري أغفل حماية الوسيلة المستحدثة في الاتصال و هي البريد الإلكتروني الذي تتعرض المراسلات الخاصة عبره لاعتداءات عديدة و التي تتطلب حماية فعّالة بتلافي الفراغ التشريعي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا