ترغب بنشر مسار تعليمي؟ اضغط هنا

نهج الحفاظ على الخصوصية لاستخراج المعلومات الشخصية من خلال التوضيح التلقائي والتعلم الفيدرالي

A Privacy-Preserving Approach to Extraction of Personal Information through Automatic Annotation and Federated Learning

514   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن برعاية Wikipii، وهي مجموعة بيانات مسمى تلقائيا تتكون من صفحات سيرة Wikipedia، مشروحة لاستخراج المعلومات الشخصية. على الرغم من أن التوضيح التلقائي يمكن أن يؤدي إلى درجة عالية من الضوضاء التسمية، إلا أنها عملية غير مكلفة ويمكن أن تولد كميات كبيرة من المستندات المشروح. قمنا بتدريب نموذج NER مقره BERT مع Wikipii وأظهر أنه مع مجموعة بيانات تدريبية كبيرة بشكل مناسب، يمكن أن يقلل النموذج بشكل كبير من تكلفة استخراج المعلومات اليدوية، على الرغم من المستوى العالي من الضوضاء التسمية. في نهج مماثل، يمكن للمنظمات الاستفادة من تقنيات التعدين النصية لإنشاء مجموعات بيانات مخصصة مشروحة من بياناتها التاريخية دون مشاركة البيانات الخام للتعليق البشري البشري. أيضا، نستكشف التدريب التعاوني للنماذج NER من خلال التعلم الفيدرالي عندما يكون التوضيحي صاخبا. تشير نتائجنا إلى أنه اعتمادا على مستوى الثقة إلى مشغل ML وحجم البيانات المتاحة، يمكن أن يكون التدريب الموزع طريقة فعالة لتدريب معرف معلومات شخصي بطريقة محفوظة خصوصية. المواد البحثية متاحة في https://github.com/ratmcu/wikipiifed.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

توصية الأخبار أمر بالغ الأهمية للوصول إلى الأخبار المخصصة. تعتمد أساليب توصيات الأخبار الموجودة على معظم طرق التخزين المركزي للأخبار التاريخية للمستخدمين النقر فوق بيانات السلوك، والتي قد تؤدي إلى مخاوف الخصوصية والمخاطر. يعد التعلم الفيدرالي إطارا ل لحفاظ على الخصوصية لعملاء متعددين نماذج قطار تعاوني دون مشاركة بياناتهم الخاصة. ومع ذلك، فإن حساب التكاليف والاتصال في تعلم العديد من نماذج توصية الأخبار الموجودة بطريقة غير مقبولة غير مقبولة لعملاء المستخدمين. في هذه الورقة، نقترح إطارا تعليميا فائضا فعالا لتوصية الأخبار التي تحافظ على الخصوصية. بدلا من تدريب وتوصيل النموذج بأكمله، نقوم بتحلل نموذج توصية الأخبار إلى نموذج أخبار كبير يحتفظ به في الخادم ونموذج مستخدم إضاءة الوزن مشتركا على كل من الخادم والعملاء، حيث يتم توصيل تمثيل الأخبار ونموذج المستخدم بين الخادم والعملاء وبعد وبشكل أكثر تحديدا، يطلب العملاء طراز المستخدم والتمثيلات الأخبار من الخادم، وإرسال تدرجاتهم المحسوبة محليا إلى الخادم للتجميع. يقوم الخادم بتحديث نموذج المستخدم العالمي الخاص به مع التدرجات المجمعة، ويقوم كذلك بتحديث نموذج الأخبار الخاص به لاستنتاج تمثيلات أخبار محدثة. نظرا لأن التدرجات المحلية قد تحتوي على معلومات خاصة، فإننا نقترح طريقة تجميع آمنة للتدرجات الإجمالية في طريقة الحفاظ على الخصوصية. تظهر التجارب في مجموعات بيانات عالمية حقيقية أن طريقتنا يمكن أن تقلل من حساب حساب الاتصالات والاتصال على العملاء مع الحفاظ على أداء نموذج واعد.
النمطية اللغوية هي مجال من اللغويات المعنية بتحليل ومقارنة بين اللغات الطبيعية للعالم بناء على ميزاتها اللغوية المعينة. لهذا الغرض، تاريخيا، اعتمدت المنطقة على استخراج يدوية لقيم الميزات اللغوية من الأوصاف النصية للغات. هذا يجعلها مهمة شاقة وطولها با هظة الثمن وهي ملزمة أيضا بسعة الدماغ البشرية. في هذه الدراسة، نقدم نظام تعليمي عميق لمهمة الاستخراج التلقائي للميزات اللغوية من الأوصاف النصية للغات الطبيعية. أولا، يتم تسجيل أوصاف نصية يدويا مع هياكل خاصة تسمى الإطارات الدلالية. يتم تعلم تلك التعليقات التوضيحية من خلال شبكة عصبية متكررة، والتي تستخدم بعد ذلك لتعليق النص غير المشروح. أخيرا، يتم تحويل التعليقات التوضيحية إلى قيم ميزة اللغوية باستخدام وحدة نمطية قائمة على القاعدة. يتم استخدام Tembeddings Word، المستفادة من نص الأغراض العامة، كمصدر رئيسي للمعرفة من قبل الشبكة العصبية المتكررة. قارنا نظام التعلم العميق المقترح للنظام القائم على نظام التعلم الذي تم الإبلاغ عنه مسبقا لنفس المهمة، ويفوز نظام التعلم العميق من حيث درجات F1 بهامش عادل. من المتوقع أن يكون هذا النظام مساهمة مفيدة للجنة التلقائية لقواعد البيانات النموذجية، والتي يتم تطويرها يدويا.
سجل محاضر سجل أي موضوع ناقش، والقرارات التي تم التوصل إليها والإجراءات المتخذة في الاجتماع.لا يمكن المبالغة في أهمية التلقائي التلقائي.في هذه الورقة، نقدم نهج نافذة منزلقة إلى الجيل التلقائي من محضر الاجتماعات.يهدف إلى معالجة القضايا المتعلقة بطبيعة النص المنطوق، بما في ذلك النص المطول ونقص بنية المستندات، مما يجعل من الصعب تحديد المحتوى البارز المراد تضمينه في محضر الاجتماعات.تجمع نهجنا بين نهج النافذة المنزلق وملخص مبخر عصبي للتنقل من خلال النص الخام للعثور على محتوى بارز.يتم تقييم النهج على نصوص محادثات الاجتماعات الطبيعية، حيث نقارن النتائج التي تم الحصول عليها من أجل النصوص البشرية وإصدارين من النصوص التلقائية ومناقشة كيفية النجاح إلى أي مدى تنجح الملخص في التقاط المحتوى البارزين.
اعتمدت نهج استخراج المعلومات الحديثة على تدريب النماذج العصبية العميقة. ومع ذلك، يمكن أن تتجاوز هذه النماذج بسهولة الملصقات الصاخبة وتعاني من تدهور الأداء. في حين أنه من المكلف للغاية تصفية الملصقات الصاخبة في موارد تعليمية كبيرة، فإن الدراسات الحديث ة تظهر أن مثل هذه الملصقات تتخذ المزيد من الخطوات التدريبية التي سيتم حفظها وتكون نسيانها بشكل أكثر تواترا من الملصقات النظيفة، وبالتالي يتم تحديدها في التدريب. بدافع من هذه الخصائص، نقترح إطارا بسيطا بانتظام بسيطة لاستخراج المعلومات التركز على الكيان، والذي يتكون من العديد من النماذج العصبية مع هياكل متطابقة ولكن تهيئة معلمة مختلفة. يتم تحسين هذه النماذج بشكل مشترك مع الخسائر الخاصة بالمهمة ويتم تنظيمها لتوليد تنبؤات مماثلة تستند إلى فقدان اتفاقية، تمنع التجديدات الخارجية على الملصقات الصاخبة. تظهر تجارب واسعة على نطاق واسع على نطاق واسع ولكن صاخبة لاستخراج المعلومات، Tacred و Conll03، فعالية إطار عملنا. نطلق سرد علاماتنا للمجتمع للبحث في المستقبل.
تعتمد نماذج التعلم العميق الحديثة لمعالجة اللغة الطبيعية بشكل كبير على كميات كبيرة من النصوص المشروح.ومع ذلك، قد يكون الحصول على مثل هذه النصوص صعبة عندما تحتوي على معلومات شخصية أو سرية، على سبيل المثال، في المجالات الصحية أو القانونية.في هذا العمل، نقترح طريقة لإلغاء تحديد المستندات النصية النموذج الحرة من خلال تقسيم البيانات الحساسة بعناية فيها.نظهر أن طريقتنا تحافظ على الأداة المساعدة للبيانات لتصنيف النصوص ووضع التسلسل والتسجيل الإجابة على المهام.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا