إلغاء تحديد الهوية هي مهمة اكتشاف الكيانات المتعلقة بالخصوصية في النص، مثل أسماء الشخص ورسائل البريد الإلكتروني ومعلومات الاتصال.لقد درست جيدا داخل المجال الطبي.تتزايد الحاجة إلى تكنولوجيا تحديد الهوية، حيث أن التعامل مع البيانات المحفوظة للخصوصية في ارتفاع الطلب في العديد من المجالات.في هذه الورقة، نركز على منشورات الوظيفة.نقدم JobStack، وهي تجسد جديدة لإلغاء تحديد البيانات الشخصية في الوظائف الشاغرة على Stackoverflow.نقدم خطوط أساس، ومقارنة الذاكرة الطويلة الأجل (LSTM) ونماذج المحولات.لتحسين هذه الأساس، نقوم بتجربة تمثيلات Bert، والبيانات المساعدة ذات الصلة بصراحة عبر التعلم متعدد المهام.تظهر نتائجنا أن البيانات الإضافية تساعد في تحسين أداء تحديد الهوية.أثناء تحسين تمثيلات BERT تحسين الأداء، تحولت بيرت فانيليا بشكل مدهش إلى أن تكون أكثر فعالية من بيرت المدربين على البيانات المتعلقة ب Stackoverflow.
De-identification is the task of detecting privacy-related entities in text, such as person names, emails and contact data. It has been well-studied within the medical domain. The need for de-identification technology is increasing, as privacy-preserving data handling is in high demand in many domains. In this paper, we focus on job postings. We present JobStack, a new corpus for de-identification of personal data in job vacancies on Stackoverflow. We introduce baselines, comparing Long-Short Term Memory (LSTM) and Transformer models. To improve these baselines, we experiment with BERT representations, and distantly related auxiliary data via multi-task learning. Our results show that auxiliary data helps to improve de-identification performance. While BERT representations improve performance, surprisingly vanilla'' BERT turned out to be more effective than BERT trained on Stackoverflow-related data.
المراجع المستخدمة
https://aclanthology.org/
تصف هذه الورقة معيارا متاحا بحرية على شبكة الإنترنت يسمى HB DEID.تحدد DED HB ما يسمى بالمعلومات الصحية المحمية، PHI، في نص مكتوب باللغة السويدية والأقنعة أو استبدالها مع بدائل أو سرية.يتم تسمية فيس كيانات مثل الأسماء الشخصية والمواقع والأعمار وأرقام
أدوات البناء لإزالة المعلومات الحساسة مثل الأسماء الشخصية والعناوين وأرقام الهواتف - ما يسمى بالمعلومات الصحية المحمية (PHI) - من النص الحر الإكلينيكي هي مهمة مهمة لجعل النصوص السريرية متاحة للبحث. يجب تقييم هذه أدوات تحديد الهوية فيما يتعلق بجودتها
كيف تشرح بيل غيتس إلى الألمانية؟يرتبط بتأسيس شركة في الولايات المتحدة، لذلك ربما يمكن للمؤسس الألماني كارل بنز أن يقف في البوابات في تلك السياقات.يسمى هذا النوع من الترجمة التكيف في مجتمع الترجمة.حتى الآن، لم تتم هذه المهمة بشكل حسابي.يمكن استخدام ال
أظهرت نماذج الشبكة العصبية المستندة إلى ما يحقظ أن عروض حديثة (SOTA) على مهام معالجة اللغة الطبيعية (NLP). تعد تمثيل الجملة الأكثر استخداما لأساليب NLP ذات الاستخدام العصبي سلسلة من الكلمات الفرعية المختلفة عن تمثيل الجملة من الأساليب غير العصبية الت
هدف البحث إلى دراسة أثر القيم التنظيمية المتعلقة بالادارة (القوة, النخبة, المكافأة) على الأداء الوظيفي للعاملين في المشافي الخاصة بمحافظة اللاذقية.