نحن برعاية Wikipii، وهي مجموعة بيانات مسمى تلقائيا تتكون من صفحات سيرة Wikipedia، مشروحة لاستخراج المعلومات الشخصية. على الرغم من أن التوضيح التلقائي يمكن أن يؤدي إلى درجة عالية من الضوضاء التسمية، إلا أنها عملية غير مكلفة ويمكن أن تولد كميات كبيرة من المستندات المشروح. قمنا بتدريب نموذج NER مقره BERT مع Wikipii وأظهر أنه مع مجموعة بيانات تدريبية كبيرة بشكل مناسب، يمكن أن يقلل النموذج بشكل كبير من تكلفة استخراج المعلومات اليدوية، على الرغم من المستوى العالي من الضوضاء التسمية. في نهج مماثل، يمكن للمنظمات الاستفادة من تقنيات التعدين النصية لإنشاء مجموعات بيانات مخصصة مشروحة من بياناتها التاريخية دون مشاركة البيانات الخام للتعليق البشري البشري. أيضا، نستكشف التدريب التعاوني للنماذج NER من خلال التعلم الفيدرالي عندما يكون التوضيحي صاخبا. تشير نتائجنا إلى أنه اعتمادا على مستوى الثقة إلى مشغل ML وحجم البيانات المتاحة، يمكن أن يكون التدريب الموزع طريقة فعالة لتدريب معرف معلومات شخصي بطريقة محفوظة خصوصية. المواد البحثية متاحة في https://github.com/ratmcu/wikipiifed.
We curated WikiPII, an automatically labeled dataset composed of Wikipedia biography pages, annotated for personal information extraction. Although automatic annotation can lead to a high degree of label noise, it is an inexpensive process and can generate large volumes of annotated documents. We trained a BERT-based NER model with WikiPII and showed that with an adequately large training dataset, the model can significantly decrease the cost of manual information extraction, despite the high level of label noise. In a similar approach, organizations can leverage text mining techniques to create customized annotated datasets from their historical data without sharing the raw data for human annotation. Also, we explore collaborative training of NER models through federated learning when the annotation is noisy. Our results suggest that depending on the level of trust to the ML operator and the volume of the available data, distributed training can be an effective way of training a personal information identifier in a privacy-preserved manner. Research material is available at https://github.com/ratmcu/wikipiifed.
المراجع المستخدمة
https://aclanthology.org/
توصية الأخبار أمر بالغ الأهمية للوصول إلى الأخبار المخصصة. تعتمد أساليب توصيات الأخبار الموجودة على معظم طرق التخزين المركزي للأخبار التاريخية للمستخدمين النقر فوق بيانات السلوك، والتي قد تؤدي إلى مخاوف الخصوصية والمخاطر. يعد التعلم الفيدرالي إطارا ل
النمطية اللغوية هي مجال من اللغويات المعنية بتحليل ومقارنة بين اللغات الطبيعية للعالم بناء على ميزاتها اللغوية المعينة. لهذا الغرض، تاريخيا، اعتمدت المنطقة على استخراج يدوية لقيم الميزات اللغوية من الأوصاف النصية للغات. هذا يجعلها مهمة شاقة وطولها با
سجل محاضر سجل أي موضوع ناقش، والقرارات التي تم التوصل إليها والإجراءات المتخذة في الاجتماع.لا يمكن المبالغة في أهمية التلقائي التلقائي.في هذه الورقة، نقدم نهج نافذة منزلقة إلى الجيل التلقائي من محضر الاجتماعات.يهدف إلى معالجة القضايا المتعلقة بطبيعة
اعتمدت نهج استخراج المعلومات الحديثة على تدريب النماذج العصبية العميقة. ومع ذلك، يمكن أن تتجاوز هذه النماذج بسهولة الملصقات الصاخبة وتعاني من تدهور الأداء. في حين أنه من المكلف للغاية تصفية الملصقات الصاخبة في موارد تعليمية كبيرة، فإن الدراسات الحديث
تعتمد نماذج التعلم العميق الحديثة لمعالجة اللغة الطبيعية بشكل كبير على كميات كبيرة من النصوص المشروح.ومع ذلك، قد يكون الحصول على مثل هذه النصوص صعبة عندما تحتوي على معلومات شخصية أو سرية، على سبيل المثال، في المجالات الصحية أو القانونية.في هذا العمل،