يتم الآن استخدام تمثيل مؤلفين التعلم من إنتاجاتهم النصية على نطاق واسع لحل المهام متعددة المصب، مثل التصنيف أو ربط الارتباط أو توصية المستخدم. غالبا ما يتم بناء طرق تضمين المؤلف أعلى إما Doc2vec (Mikolov et al. 2014) أو بنية المحولات (ديفلين وآخرون 2019). تقييم جودة هذه المدينات وما الذي يتقاضونه مهمة صعبة. تستخدم معظم المقالات إما دقة التصنيف أو إسناد التأليف، والتي لا تقيس بوضوح جودة مساحة التمثيل، إذا كنت تلتقط بالفعل ما تم بناؤه ل. في هذه الورقة، نقترح إطارا للتقييم الجديد لأساليب تضمين المؤلف بناء على أسلوب الكتابة. يسمح لتقدير تحديد مساحة التضمين بفعالية مجموعة من الميزات الأسلوبية، المختارة لتكون أفضل وكيل لأسلوب كتابة المؤلف. هذا النهج يعطي أهمية أقل للموضوعات التي تنقلها المستندات. اتضح أن النماذج الحديثة مدفوعة في الغالب من قبل الدلالية الداخلية لإنتاج المؤلفين. إنهم متفوقون من قبل خطوط أساسية بسيطة، استنادا إلى نماذج تضمين الأحكام المسبقة للحكومة، على العديد من المحاور اللغوية. يمكن لهذه الأساس فهم الظواهر اللغوية المعقدة وأسلوب الكتابة بكفاءة أكبر، مما يمهد الطريق لتصميم نماذج تضمين مؤلف جديدة مدفوعة بالأناقة.
Learning authors representations from their textual productions is now widely used to solve multiple downstream tasks, such as classification, link prediction or user recommendation. Author embedding methods are often built on top of either Doc2Vec (Mikolov et al. 2014) or the Transformer architecture (Devlin et al. 2019). Evaluating the quality of these embeddings and what they capture is a difficult task. Most articles use either classification accuracy or authorship attribution, which does not clearly measure the quality of the representation space, if it really captures what it has been built for. In this paper, we propose a novel evaluation framework of author embedding methods based on the writing style. It allows to quantify if the embedding space effectively captures a set of stylistic features, chosen to be the best proxy of an author writing style. This approach gives less importance to the topics conveyed by the documents. It turns out that recent models are mostly driven by the inner semantic of authors' production. They are outperformed by simple baselines, based on state-of-the-art pretrained sentence embedding models, on several linguistic axes. These baselines can grasp complex linguistic phenomena and writing style more efficiently, paving the way for designing new style-driven author embedding models.
References used
https://aclanthology.org/
There are thousands of papers about natural language processing and computational linguistics, but very few textbooks. I describe the motivation and process for writing a college textbook on natural language processing, and offer advice and encouragement for readers who may be interested in writing a textbook of their own.
In this research, gearbox has been designed according to the two rows
planetary and several directly rows to rotate the four-roof building in
Homs city while maintaining the relative rotation between the floors,
and the study of the steel core and
This paper reviews and summarizes human evaluation practices described in 97 style transfer papers with respect to three main evaluation aspects: style transfer, meaning preservation, and fluency. In principle, evaluations by human raters should be t
With the increase in the number of published academic papers, growing expectations have been placed on research related to supporting the writing process of scientific papers. Recently, research has been conducted on various tasks such as citation wo
While the field of style transfer (ST) has been growing rapidly, it has been hampered by a lack of standardized practices for automatic evaluation. In this paper, we evaluate leading automatic metrics on the oft-researched task of formality style tra