يتم نشر العديد من الكتب الجديدة كل عام، وفقط جزء صغير منهم يصبح شعبية بين القراء. لذلك يمكن أن يكون التنبؤ لنجاح الكتاب معلمة مفيدة للغاية للناشرين لاتخاذ قرار موثوق. تقدم هذه المقالة دراسة جمعيات الكلمات الدلالية باستخدام كلمة تضمين محتوى الكتاب لمجموعة من مفاهيم رسائل المرادفات Roget لتنبؤ نجاح الكتاب. في هذا العمل، نناقش الطريقة لتمثيل كتاب كطيف من المفاهيم بناء على درجة الجمعية بين تضمين محتواها ومضمون عالمي (I.E. FastText) لمجموعة من مجموعات الكلمات المرتبطة بشكل شبه مرتبط. نظهر أن جمعيات الكلمة الدلالية تتفوق على الطرق السابقة لكتاب التنبؤ بنجاح. بالإضافة إلى ذلك، نقدم أن جمعيات الكلمات الدلالية توفر أيضا نتائج أفضل من استخدام ميزات مثل تواتر مجموعات الكلمات في مرادس روغيت، Liwc (أداة شعبية للاستفسار اللغوي وعدد الكلمات)، NRC (Word Association Emotion lexicon)، وجزء من كلام (نقاط البيع). تقارير دراستنا أن رابطات المفاهيم القائمة على مرادفات روغيت باستخدام كلمة تضمين الرواية الفردية نتجت عن أداء الحديث من 0.89 متوسط النتيجة F1 المرجحة لتقويت نجاح الكتاب. أخيرا، نقدم مجموعة من الموضوعات المهيمنة التي تسهم في شعبية كتاب عن نوع معين.
Many new books get published every year, and only a fraction of them become popular among the readers. So the prediction of a book success can be a very useful parameter for publishers to make a reliable decision. This article presents the study of semantic word associations using the word embedding of book content for a set of Roget's thesaurus concepts for book success prediction. In this work, we discuss the method to represent a book as a spectrum of concepts based on the association score between its content embedding and a global embedding (i.e. fastText) for a set of semantically linked word clusters. We show that the semantic word associations outperform the previous methods for book success prediction. In addition, we present that semantic word associations also provide better results than using features like the frequency of word groups in Roget's thesaurus, LIWC (a popular tool for linguistic inquiry and word count), NRC (word association emotion lexicon), and part of speech (PoS). Our study reports that concept associations based on Roget's Thesaurus using word embedding of individual novel resulted in the state-of-the-art performance of 0.89 average weighted F1-score for book success prediction. Finally, we present a set of dominant themes that contribute towards the popularity of a book for a specific genre.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نقترح طريقة لاستدادتها معلومات جملة المعلومات ومعلومات تردد الكلمات الخاصة بمهمة التعقيد ذات التعقيد 1-LCP (LCP). في نظامنا، تأتي معلومات الجملة من نموذج روبرتا، وتأتي معلومات تردد الكلمات من خوارزمية TF-IDF. استخدم Black Block كطبقة م
نماذج العصبية المدربة لتوليد الكلام المقبل في مهمة الحوار تعلم تحاكي تسلسلات N-Gram في التدريب المحدد بأهداف التدريب مثل احتمال السجل السلبي (NLL) أو Cross-Enterpy. هذه الأهداف التدريبية الشائعة الاستخدام لا تعزز تحقيق ردود بديلة إلى سياق. ولكن، فإن
اكتشاف التغيير الدلالي المعجمي في مجموعات بيانات أصغر، على سبيل المثالفي اللغويات التاريخية والعلوم الإنسانية الرقمية، تحديا بسبب نقص القوة الإحصائية.يتم تفاقم هذه المشكلة عن طريق نماذج التضمين غير السياقية التي تنتج واحدة من التضمين لكل كلمة، وبالتا
غالبا ما تكون دراسات العلوم الاجتماعية الحاسوبية تحليل المحتوى في كثير من الأحيان داخل التركيبة السكانية القياسية.نظرا لأن التركيبة السكانية غير متوفرة على العديد من منصات وسائل التواصل الاجتماعي (E.G. Twitter)، فقد استنتجت الدراسات العديد من الدراسا
الوسائط الاجتماعية هي أداة أساسية لتبادل المعلومات حول أحداث الأزمات، مثل الكوارث الطبيعية. يهدف الكشف عن الحدث إلى استخراج المعلومات في شكل حدث، ولكنه يعتبر كل حدث بمعزل، دون الجمع بين المعلومات عبر الجمل أو الأحداث. تحتوي العديد من الوظائف في أزمة