يعيد هذا العمل أن المعلومات المقدمة من الرسم البياني للكلمات واستخدامها النموذجي من خلال نهج التصنيف المستندة إلى الرسم البياني في سياق استخراج الكلمات الرئيسية.عادة ما تستخدم الأساليب الرسمية القائمة على الرسم البياني المعروف عادة المعرفة من تمثيلات ناقلات Word خلال عملية الترتيب عبر تدابير مركزية شهيرة (على سبيل المثال، تصنيف الصفحات) دون إعطاء الدور الأساسي لتوزيع الناقلات.نحن نعتبر مصفوفة مجاورة تتوافق مع الرسم البياني لكلم وثيقة نصية مستهدفة كتمثيل متجه لمفرداته.نقترح النمذجة القائمة على التوزيع في هذه المصفوفة المجاورة باستخدام خوارزميات (التعلم) غير المعروضة.يتم تأكيد فعالية نهج النمذجة القائمة على التوزيع مقارنة بالأساليب الرسمية القائمة على الرسم البياني في الرسم البياني من خلال دراسة تجريبية واسعة النطاق وفقا لدرجة F1.رمزنا متاح على جيثب.
This work revisits the information given by the graph-of-words and its typical utilization through graph-based ranking approaches in the context of keyword extraction. Recent, well-known graph-based approaches typically employ the knowledge from word vector representations during the ranking process via popular centrality measures (e.g., PageRank) without giving the primary role to vectors' distribution. We consider the adjacency matrix that corresponds to the graph-of-words of a target text document as the vector representation of its vocabulary. We propose the distribution-based modeling of this adjacency matrix using unsupervised (learning) algorithms. The efficacy of the distribution-based modeling approaches compared to state-of-the-art graph-based methods is confirmed by an extensive experimental study according to the F1 score. Our code is available on GitHub.
المراجع المستخدمة
https://aclanthology.org/
استخراج الكلمات الرئيسية هي مهمة تحديد الكلمات (أو تعبيرات متعددة الكلمة) التي تصف أفضل وثيقة معينة وخدمة في بوابات الأخبار لربط مقالات من مواضيع مماثلة. في هذا العمل، نطور وتقييم أساليبنا على أربع مجموعات بيانات جديدة تغطي لغات أقل ممثلة تمثيلا، لغا
الكلمات الرئيسية أو استخراج مفاتيح الصوت هي تحديد الكلمات أو العبارات التي تقدم الموضوعات الرئيسية للمستند.تقترح هذه الورقة الاهتمام، وهو نموذج انتباه هجين، لتحديد الرابط القصوى من وثيقة بطريقة غير مخالفة.تعاني Natheatrank حساب اهتمام الذات والاهتمام
أثار التدفق السريع للمعلومات وفرة البيانات النصية على شبكة الإنترنت عن الطلب العاجل على بناء موارد ومراقبة التقنيات المستخدمة لأغراض مختلفة. لاستخراج جوانب المعلومات المفيدة لمجالات معينة من هذه الشركات الكبيرة المتنامية ديناميكية تتطلب طرقا شفافة غي
تستخدم مصطلح خطط الترجغ على نطاق واسع في معالجة اللغة الطبيعية واسترجاع المعلومات. على وجه الخصوص، فإن وزن المصطلح هو الأساس لاستخراج الكلمات الرئيسية. ومع ذلك، هناك عدد قليل نسبيا دراسات التقييم التي ألقت الضوء على نقاط القوة وأوجه القصور في كل مخطط
استخراج العلاقات غير المدعومة من قبل أزواج كيان التجمع التي لها نفس العلاقات في النص. تقوم بعض الأساليب المتنوعة (VAE) المتنوعة (VAE) بتدريب نموذج استخراج العلاقة كترفيه يولد تصنيفات العلاقة. يتم تدريب وحدة فك الترميز جنبا إلى جنب مع التشفير لإعادة ب