يتم الآن استخدام تمثيل مؤلفين التعلم من إنتاجاتهم النصية على نطاق واسع لحل المهام متعددة المصب، مثل التصنيف أو ربط الارتباط أو توصية المستخدم. غالبا ما يتم بناء طرق تضمين المؤلف أعلى إما Doc2vec (Mikolov et al. 2014) أو بنية المحولات (ديفلين وآخرون 2019). تقييم جودة هذه المدينات وما الذي يتقاضونه مهمة صعبة. تستخدم معظم المقالات إما دقة التصنيف أو إسناد التأليف، والتي لا تقيس بوضوح جودة مساحة التمثيل، إذا كنت تلتقط بالفعل ما تم بناؤه ل. في هذه الورقة، نقترح إطارا للتقييم الجديد لأساليب تضمين المؤلف بناء على أسلوب الكتابة. يسمح لتقدير تحديد مساحة التضمين بفعالية مجموعة من الميزات الأسلوبية، المختارة لتكون أفضل وكيل لأسلوب كتابة المؤلف. هذا النهج يعطي أهمية أقل للموضوعات التي تنقلها المستندات. اتضح أن النماذج الحديثة مدفوعة في الغالب من قبل الدلالية الداخلية لإنتاج المؤلفين. إنهم متفوقون من قبل خطوط أساسية بسيطة، استنادا إلى نماذج تضمين الأحكام المسبقة للحكومة، على العديد من المحاور اللغوية. يمكن لهذه الأساس فهم الظواهر اللغوية المعقدة وأسلوب الكتابة بكفاءة أكبر، مما يمهد الطريق لتصميم نماذج تضمين مؤلف جديدة مدفوعة بالأناقة.
Learning authors representations from their textual productions is now widely used to solve multiple downstream tasks, such as classification, link prediction or user recommendation. Author embedding methods are often built on top of either Doc2Vec (Mikolov et al. 2014) or the Transformer architecture (Devlin et al. 2019). Evaluating the quality of these embeddings and what they capture is a difficult task. Most articles use either classification accuracy or authorship attribution, which does not clearly measure the quality of the representation space, if it really captures what it has been built for. In this paper, we propose a novel evaluation framework of author embedding methods based on the writing style. It allows to quantify if the embedding space effectively captures a set of stylistic features, chosen to be the best proxy of an author writing style. This approach gives less importance to the topics conveyed by the documents. It turns out that recent models are mostly driven by the inner semantic of authors' production. They are outperformed by simple baselines, based on state-of-the-art pretrained sentence embedding models, on several linguistic axes. These baselines can grasp complex linguistic phenomena and writing style more efficiently, paving the way for designing new style-driven author embedding models.
المراجع المستخدمة
https://aclanthology.org/
هناك الآلاف من الأوراق حول معالجة اللغة الطبيعية واللغويات الحاسوبية، ولكن عدد قليل جدا من الكتب المدرسية.أصف الدافع والعملية لكتابة كتاب مدرسي في كلية حول معالجة اللغة الطبيعية، وتقديم المشورة والتشجيع للقراء الذين قد يهتمون بكتابة كتاب مدرسي خاص بهم.
في هذا البحث تم تصميم علبة سرعة وفق مرحلتي نقل فلكيتين و عدة مراحل غير فلكية
لتدوير مبنى مؤلف من أربع طوابق في مدينة حمص مع المحافظة على الدوران النسبي بين
الطوابق و دراسة النواة المعدنية و الجملة الانشائية للمبنى لحساب الاستطاعة المطلوبة من
المحر
هذه الاستعراضات الورقة وتلخص ممارسات التقييم البشري الموضحة في 97 ورقة نقل النمط فيما يتعلق بثلاثة جوانب التقييم الرئيسية: نقل النمط، والمعنى بالحفظ، والطلاقة.من حيث المبدأ، يجب أن تكون التقييمات من قبل راتبي البشر هي الأكثر موثوقية.ومع ذلك، في أوراق
مع الزيادة في عدد الأوراق الأكاديمية المنشورة، تم وضع توقعات متزايدة على البحوث المتعلقة بدعم عملية الكتابة للأوراق العلمية. في الآونة الأخيرة، تم إجراء البحوث على مهام مختلفة مثل جدارة الاقتباس (الحكم على ما إذا كانت الجملة تتطلب الاقتباس) توصية الا
في حين أن مجال نقل النمط (ST) ينمو بسرعة، فقد أعاقه بعدم وجود ممارسات موحدة للتقييم التلقائي.في هذه الورقة، نقوم بتقييم المقاييس التلقائية الرائدة على المهمة التي تم بحثها عن نقل أسلوب الأشكال.على عكس التقييمات السابقة، التي تركز فقط على اللغة الإنجل