يتم نشر العديد من الكتب الجديدة كل عام، وفقط جزء صغير منهم يصبح شعبية بين القراء. لذلك يمكن أن يكون التنبؤ لنجاح الكتاب معلمة مفيدة للغاية للناشرين لاتخاذ قرار موثوق. تقدم هذه المقالة دراسة جمعيات الكلمات الدلالية باستخدام كلمة تضمين محتوى الكتاب لمجموعة من مفاهيم رسائل المرادفات Roget لتنبؤ نجاح الكتاب. في هذا العمل، نناقش الطريقة لتمثيل كتاب كطيف من المفاهيم بناء على درجة الجمعية بين تضمين محتواها ومضمون عالمي (I.E. FastText) لمجموعة من مجموعات الكلمات المرتبطة بشكل شبه مرتبط. نظهر أن جمعيات الكلمة الدلالية تتفوق على الطرق السابقة لكتاب التنبؤ بنجاح. بالإضافة إلى ذلك، نقدم أن جمعيات الكلمات الدلالية توفر أيضا نتائج أفضل من استخدام ميزات مثل تواتر مجموعات الكلمات في مرادس روغيت، Liwc (أداة شعبية للاستفسار اللغوي وعدد الكلمات)، NRC (Word Association Emotion lexicon)، وجزء من كلام (نقاط البيع). تقارير دراستنا أن رابطات المفاهيم القائمة على مرادفات روغيت باستخدام كلمة تضمين الرواية الفردية نتجت عن أداء الحديث من 0.89 متوسط النتيجة F1 المرجحة لتقويت نجاح الكتاب. أخيرا، نقدم مجموعة من الموضوعات المهيمنة التي تسهم في شعبية كتاب عن نوع معين.
Many new books get published every year, and only a fraction of them become popular among the readers. So the prediction of a book success can be a very useful parameter for publishers to make a reliable decision. This article presents the study of semantic word associations using the word embedding of book content for a set of Roget's thesaurus concepts for book success prediction. In this work, we discuss the method to represent a book as a spectrum of concepts based on the association score between its content embedding and a global embedding (i.e. fastText) for a set of semantically linked word clusters. We show that the semantic word associations outperform the previous methods for book success prediction. In addition, we present that semantic word associations also provide better results than using features like the frequency of word groups in Roget's thesaurus, LIWC (a popular tool for linguistic inquiry and word count), NRC (word association emotion lexicon), and part of speech (PoS). Our study reports that concept associations based on Roget's Thesaurus using word embedding of individual novel resulted in the state-of-the-art performance of 0.89 average weighted F1-score for book success prediction. Finally, we present a set of dominant themes that contribute towards the popularity of a book for a specific genre.
References used
https://aclanthology.org/
In this paper, we propose a method of fusing sentence information and word frequency information for the SemEval 2021 Task 1-Lexical Complexity Prediction (LCP) shared task. In our system, the sentence information comes from the RoBERTa model, and th
Neural models trained for next utterance generation in dialogue task learn to mimic the n-gram sequences in the training set with training objectives like negative log-likelihood (NLL) or cross-entropy. Such commonly used training objectives do not f
Detecting lexical semantic change in smaller data sets, e.g. in historical linguistics and digital humanities, is challenging due to a lack of statistical power. This issue is exacerbated by non-contextual embedding models that produce one embedding
Computational social science studies often contextualize content analysis within standard demographics. Since demographics are unavailable on many social media platforms (e.g. Twitter), numerous studies have inferred demographics automatically. Despi
Social media is an essential tool to share information about crisis events, such as natural disasters. Event Detection aims at extracting information in the form of an event, but considers each event in isolation, without combining information across