ترغب بنشر مسار تعليمي؟ اضغط هنا

دراسة حول استخدام جمعيات الكلمات الدلالية للتنبؤ بنجاح رواية

A Study on Using Semantic Word Associations to Predict the Success of a Novel

178   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتم نشر العديد من الكتب الجديدة كل عام، وفقط جزء صغير منهم يصبح شعبية بين القراء. لذلك يمكن أن يكون التنبؤ لنجاح الكتاب معلمة مفيدة للغاية للناشرين لاتخاذ قرار موثوق. تقدم هذه المقالة دراسة جمعيات الكلمات الدلالية باستخدام كلمة تضمين محتوى الكتاب لمجموعة من مفاهيم رسائل المرادفات Roget لتنبؤ نجاح الكتاب. في هذا العمل، نناقش الطريقة لتمثيل كتاب كطيف من المفاهيم بناء على درجة الجمعية بين تضمين محتواها ومضمون عالمي (I.E. FastText) لمجموعة من مجموعات الكلمات المرتبطة بشكل شبه مرتبط. نظهر أن جمعيات الكلمة الدلالية تتفوق على الطرق السابقة لكتاب التنبؤ بنجاح. بالإضافة إلى ذلك، نقدم أن جمعيات الكلمات الدلالية توفر أيضا نتائج أفضل من استخدام ميزات مثل تواتر مجموعات الكلمات في مرادس روغيت، Liwc (أداة شعبية للاستفسار اللغوي وعدد الكلمات)، NRC (Word Association Emotion lexicon)، وجزء من كلام (نقاط البيع). تقارير دراستنا أن رابطات المفاهيم القائمة على مرادفات روغيت باستخدام كلمة تضمين الرواية الفردية نتجت عن أداء الحديث من 0.89 متوسط ​​النتيجة F1 المرجحة لتقويت نجاح الكتاب. أخيرا، نقدم مجموعة من الموضوعات المهيمنة التي تسهم في شعبية كتاب عن نوع معين.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقترح طريقة لاستدادتها معلومات جملة المعلومات ومعلومات تردد الكلمات الخاصة بمهمة التعقيد ذات التعقيد 1-LCP (LCP). في نظامنا، تأتي معلومات الجملة من نموذج روبرتا، وتأتي معلومات تردد الكلمات من خوارزمية TF-IDF. استخدم Black Block كطبقة م شتركة لتعلم العقوبة ومعلومات تردد الكلمات وصفنا تنفيذ أفضل نظامنا وناقش أساليبنا وتجاربنا في المهمة. تنقسم المهمة المشتركة إلى مهمتين فرعيتين. الهدف من المهام الفرعية هو التنبؤ بعقد كلمة محددة سلفا. تنقسم المهمة المشتركة إلى قسمين فرعيين. الهدف من اثنين من المهن الفرعية هو التنبؤ بعقد كلمة محددة سلفا. مؤشر تقييم المهمة هو معامل الارتباط بيرسون. يحتوي أفضل نظام الأداء لدينا على معاملات ارتباط بيرسون من 0.7434 و 0.8000 في مجموعة اختبار المراكز الفرعية ذات الرمز الفرعي واحد ومجموعة اختبار الترجمة الفرعية متعددة رميات، على التوالي.
نماذج العصبية المدربة لتوليد الكلام المقبل في مهمة الحوار تعلم تحاكي تسلسلات N-Gram في التدريب المحدد بأهداف التدريب مثل احتمال السجل السلبي (NLL) أو Cross-Enterpy. هذه الأهداف التدريبية الشائعة الاستخدام لا تعزز تحقيق ردود بديلة إلى سياق. ولكن، فإن آثار التقليل من هدف تدريب بديل يعزز نموذجا لتوليد استجابة بديلة وسجله على التشابه الدلالي لم يتم دراسة جيد. نحن نفترض أن نموذج توليد اللغة يمكن أن يتحسن على تنوعه من خلال التعلم لتوليد نص بديل أثناء التدريب وتقليل الخسارة الدلالية كهدف إضافي. نستكشف هذه الفكرة على مجموعتي بيانات مختلفة الحجم في مهمة توليد الكلام التالي في الحوارات الموجهة نحو الأهداف. نجعل ملاحظتين (1) تقلل من تنوع تحسن من الهدف الدلالي في الردود في مجموعة البيانات الأصغر (الإطارات) ولكن فقط جيدة مثل تقليل NLL في مجموعة البيانات الأكبر (MultiWoz) (2) أكثر فائدة كهدف فقدان الدلالي من كهيئة لمضادات الرمز المميز.
اكتشاف التغيير الدلالي المعجمي في مجموعات بيانات أصغر، على سبيل المثالفي اللغويات التاريخية والعلوم الإنسانية الرقمية، تحديا بسبب نقص القوة الإحصائية.يتم تفاقم هذه المشكلة عن طريق نماذج التضمين غير السياقية التي تنتج واحدة من التضمين لكل كلمة، وبالتا لي، قم بإخفاء التباين الحاضر في البيانات.في هذه المقالة، نقترح نهجا لتقدير التحول الدلالي من خلال الجمع بين تضمين الكلمات السياقية مع الاختبارات الإحصائية القائمة على التقاطات.نحن نستخدم إجراء معدل الاكتشاف الخاطئ لمعالجة العدد الكبير من اختبارات الفرضيات التي يجري تنفيذها في وقت واحد.نوضح أداء هذا النهج في المحاكاة حيث تحقق بدقة عالية باستمرار عن طريق قمع إيجابيات كاذبة.كلفنا تحليل بيانات العالم الحقيقي من مهمة Semeval-2020 1 و Liverpool FC SubRedDit Corpus.نظرا لأنه من خلال أخذ التباين العينة في الاعتبار، يمكننا تحسين متانة تقديرات التحول الدلالي الفردي دون مهينة الأداء العام.
غالبا ما تكون دراسات العلوم الاجتماعية الحاسوبية تحليل المحتوى في كثير من الأحيان داخل التركيبة السكانية القياسية.نظرا لأن التركيبة السكانية غير متوفرة على العديد من منصات وسائل التواصل الاجتماعي (E.G. Twitter)، فقد استنتجت الدراسات العديد من الدراسا ت التركيبة السكانية تلقائيا.على الرغم من العديد من الدراسات التي تقدم أداء مفهوم العرق والعرق، لا يزال تدريب النظم العملية بعيد المنال لأن هناك بعض البيانات المشروح.مجموعات البيانات الحالية صغيرة وغير دقيقة، أو تفشل في تغطية المجموعات العرقية والأعرقية الأربعة الأكثر شيوعا في الولايات المتحدة.نقدم طريقة لتحديد التقارير الذاتية عن العرق والعرق من أوصاف الملف الشخصي Twitter.على الرغم من ضجيج الإشراف الآلي، فإن مجموعات بيانات التقرير الذاتي لدينا تمكن التحسينات في أداء التصنيف على بيانات مسح التقارير الذاتية القياسية الذهبية.والنتيجة هي طريقة استنساخ لإنشاء موارد تدريبية واسعة النطاق للسباق والعرق.
الوسائط الاجتماعية هي أداة أساسية لتبادل المعلومات حول أحداث الأزمات، مثل الكوارث الطبيعية. يهدف الكشف عن الحدث إلى استخراج المعلومات في شكل حدث، ولكنه يعتبر كل حدث بمعزل، دون الجمع بين المعلومات عبر الجمل أو الأحداث. تحتوي العديد من الوظائف في أزمة NLP على معلومات متكررة أو تكميلية تحتاج إلى تجميعها (على سبيل المثال، عدد الأشخاص المحاصرين وموقعهم) للاستجابة للكوارث. على الرغم من أن النهج السابقة في أزمة NLP إجمالية المعلومات عبر المشاركات، إلا أنها تستخدم فقط التمثيلات الضحلة للمحتوى (على سبيل المثال، الكلمات الرئيسية)، والتي لا يمكن أن تمثل دلالة لحدث الأزمات وأسفرها بشكل كاف. في هذا العمل، نقترح إطارا جديدا لاستخراج الأحداث الفرعية النقدية من حدث أزمة واسعة النطاق من خلال الجمع بين المعلومات الهامة عبر التغريدات ذات الصلة. يقوم إطارنا أولا بتحويل جميع التغريدات من حدث الأزمات إلى مجموعة من الرسوم البيانية المرتبة الزمنية. ثم تستخرج الرسوم البيانية الفرعية التي تمثل العلاقات الدلالية التي تربط الأفعال والأسماء في 3 إلى 6 رسوم بيانية فرعية عقدة. يفعل ذلك من خلال تعلم الأوزان الحافة عبر الشبكات التنافسية الرسمية الرسمية (DGCNS) واستخراج الرسوم البيانية الفرعية الصغيرة ذات الصلة. تظهر تجاربنا أن هياكلنا المستخرجة (1) هي أحداث فرعية ذات مغزى دلالة و (2) تحتوي على معلومات مهمة لحدث الأزمة الكبيرة. علاوة على ذلك، نظير على أن نهجنا يتفوق بشكل كبير على خطوط الأساس للكشف عن الحدث، وتسليط الضوء على أهمية المعلومات التجميعية عبر تغريدات مهمتنا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا