تركز معظم دراسات حماية الخصوصية للبيانات النصية على إزالة المعرفات الحساسة الصريحة. ومع ذلك، غالبا ما يتم إهمال أسلوب الكتابة الشخصية، كمؤشر قوي على التأليف،. أظهرت الدراسات الحديثة، مثل SYNTF، نتائج واعدة حول التعدين النصي للحفاظ على الخصوصية. ومع ذلك، لا يمكن خلائطها المجهول فقط إخراج ناقلات المصطلحات الرقمية التي يصعب تفسير المستلمين. نقترح نموذج توليد نص جديد مع وجود آلية أسية ذات مجموعة من مجموعة إخفاء الهوية. من خلال زيادة المعلومات الدلالية من خلال وظيفة مكافأة تدريبية تعزز، يمكن أن يؤدي النموذج إلى إنشاء نص خاص بالتفاضل الذي يحتوي على بنية نحوية دلالية ومماثلة للنص الأصلي أثناء إزالة السمات الشخصية لأسلوب الكتابة. لا يفترض أي ملصقات مشروطة أو بيانات نصية متوازية للتدريب. نحن نقيم أداء النموذج المقترح في مراجعات نظر الأقران الواقعية ومجموعات بيانات مراجعة الصرخة. تشير النتيجة إلى أن نموذجنا يتفوق على أحدث حديثة من الحفظ الدلالي، ومضاءة التأليف، وتحول ستايلومتريك.
Most of privacy protection studies for textual data focus on removing explicit sensitive identifiers. However, personal writing style, as a strong indicator of the authorship, is often neglected. Recent studies, such as SynTF, have shown promising results on privacy-preserving text mining. However, their anonymization algorithm can only output numeric term vectors which are difficult for the recipients to interpret. We propose a novel text generation model with a two-set exponential mechanism for authorship anonymization. By augmenting the semantic information through a REINFORCE training reward function, the model can generate differentially private text that has a close semantic and similar grammatical structure to the original text while removing personal traits of the writing style. It does not assume any conditioned labels or paralleled text data for training. We evaluate the performance of the proposed model on the real-life peer reviews dataset and the Yelp review dataset. The result suggests that our model outperforms the state-of-the-art on semantic preservation, authorship obfuscation, and stylometric transformation.
References used
https://aclanthology.org/
To build machine learning-based applications for sensitive domains like medical, legal, etc. where the digitized text contains private information, anonymization of text is required for preserving privacy. Sequence tagging, e.g. as done in Named Enti
Large pre-trained neural models have recently shown remarkable progress in text generation. In this paper, we propose to generate text conditioned on the structured data (table) and a prefix (the written text) by leveraging the pre-trained models. We
We propose neural models to generate text from formal meaning representations based on Discourse Representation Structures (DRSs). DRSs are document-level representations which encode rich semantic detail pertaining to rhetorical relations, presuppos
The analytical description of charts is an exciting and important research area with many applications in academia and industry. Yet, this challenging task has received limited attention from the computational linguistics research community. This pap
Natural language often exhibits inherent hierarchical structure ingrained with complex syntax and semantics. However, most state-of-the-art deep generative models learn embeddings only in Euclidean vector space, without accounting for this structural