ترغب بنشر مسار تعليمي؟ اضغط هنا

استخراج الكلمات الرئيسية باستخدام التعلم غير المدعوم في مصفوفة المستند المجاورة

Keyword Extraction Using Unsupervised Learning on the Document's Adjacency Matrix

241   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يعيد هذا العمل أن المعلومات المقدمة من الرسم البياني للكلمات واستخدامها النموذجي من خلال نهج التصنيف المستندة إلى الرسم البياني في سياق استخراج الكلمات الرئيسية.عادة ما تستخدم الأساليب الرسمية القائمة على الرسم البياني المعروف عادة المعرفة من تمثيلات ناقلات Word خلال عملية الترتيب عبر تدابير مركزية شهيرة (على سبيل المثال، تصنيف الصفحات) دون إعطاء الدور الأساسي لتوزيع الناقلات.نحن نعتبر مصفوفة مجاورة تتوافق مع الرسم البياني لكلم وثيقة نصية مستهدفة كتمثيل متجه لمفرداته.نقترح النمذجة القائمة على التوزيع في هذه المصفوفة المجاورة باستخدام خوارزميات (التعلم) غير المعروضة.يتم تأكيد فعالية نهج النمذجة القائمة على التوزيع مقارنة بالأساليب الرسمية القائمة على الرسم البياني في الرسم البياني من خلال دراسة تجريبية واسعة النطاق وفقا لدرجة F1.رمزنا متاح على جيثب.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

استخراج الكلمات الرئيسية هي مهمة تحديد الكلمات (أو تعبيرات متعددة الكلمة) التي تصف أفضل وثيقة معينة وخدمة في بوابات الأخبار لربط مقالات من مواضيع مماثلة. في هذا العمل، نطور وتقييم أساليبنا على أربع مجموعات بيانات جديدة تغطي لغات أقل ممثلة تمثيلا، لغا ت غنية بالمظورة في صناعة وسائل الإعلام الإخبارية الأوروبية (الكرواتية، الإستونية، اللاتفية والروسية). أولا، نؤدي تقييم اثنين من أساليب المحولات العصبية الخاضعة للإشراف، والتكلمة العصبية القائمة على المحولات لتحديد الكلمات الرئيسية (TNT-KID) وتمثيل التشفير ثنائي الاتجاه من المحولات (بيرت) مع وجود ذاكرة عشوائية قصيرة الأجل طويلة الأجل الطويلة الأجل (BILSTM) رأس التصنيف CRF)، ومقارنتها بموجب تردد خط الأساس - تعتمد على تردد المستندات (TF-IDF) مقرها. بعد ذلك، نظهر أنه من خلال الجمع بين الكلمات الرئيسية التي تم استرجها من قبل كل من الأساليب القائم على المحولات العصبية وتوسيع المجموعة النهائية من الكلمات الرئيسية ذات التقنية القائمة على TF-IDF غير المدعومة، يمكننا تحسين استدعاء النظام بشكل كبير، مما يجعلها مناسبة للاستخدام ك نظام التوصية في بيئة مجلس الإعلام.
الكلمات الرئيسية أو استخراج مفاتيح الصوت هي تحديد الكلمات أو العبارات التي تقدم الموضوعات الرئيسية للمستند.تقترح هذه الورقة الاهتمام، وهو نموذج انتباه هجين، لتحديد الرابط القصوى من وثيقة بطريقة غير مخالفة.تعاني Natheatrank حساب اهتمام الذات والاهتمام عبر النموذج اللغوي المدرب مسبقا.تم تصميم اهتمام الذات لتحديد أهمية المرشح في سياق الجملة.يتم احتساب الاعتماد المتبادل لتحديد الأهمية الدلالية بين المرشح والجمل في وثيقة.نحن نقيم الاهتمام بثلاث مجموعات بيانات متاحة للجمهور ضد سبعة خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط فيه.تظهر النتائج أن Natheationrank هو نموذج استخراج مفاتيح مفاتيح غير مؤظفي فعال وقوي على الوثائق الطويلة والقصيرة.يتوفر شفرة المصدر على Github.
أثار التدفق السريع للمعلومات وفرة البيانات النصية على شبكة الإنترنت عن الطلب العاجل على بناء موارد ومراقبة التقنيات المستخدمة لأغراض مختلفة. لاستخراج جوانب المعلومات المفيدة لمجالات معينة من هذه الشركات الكبيرة المتنامية ديناميكية تتطلب طرقا شفافة غي ر مزودة بحيث تحليل البيانات النصية. اقترحت هذه الورقة تحليل الترحيل الهجين كوسيلة محتملة لاسترداد وتلخيص مواضيع تايوان ذات الصلة المنشورة على Weibo و PTT. من خلال تجمع الكملات من 臺灣 تايوان "في مجموعات من المواضيع عبر إما تجميع كلمة AdgeDings أو مخصصات Dirichlet الكامنة، يمكن تحويل قوائم الكسبات إلى توزيعات الاحتمالات بحيث يمكن تعريف المسافات والوجهات المشابه وحسابها. مع هذه الطريقة، نقوم بإجراء تحليل DIACHRONIC للمشاكل بين Weibo و PTT، مما يوفر وسيلة لتحديد متى وكيف تشابه موضوع بينهما أو يسقط. يتم محاولة وجهة نظر محتمة على السلوك النحوي والآثار السياسية أيضا. وهكذا ألقي هذه الدراسة الضوء على طرق عملية بديلة لطريقة الاستماع للوسائط الاجتماعية المستقبلية بشأن فهم العلاقة عبر المضيق.
تستخدم مصطلح خطط الترجغ على نطاق واسع في معالجة اللغة الطبيعية واسترجاع المعلومات. على وجه الخصوص، فإن وزن المصطلح هو الأساس لاستخراج الكلمات الرئيسية. ومع ذلك، هناك عدد قليل نسبيا دراسات التقييم التي ألقت الضوء على نقاط القوة وأوجه القصور في كل مخطط للتوازن. في الواقع، في معظم الحالات، يلجأ الباحثون والممارسون في معظم الحالات إلى TF-IDF المعروفة بشكل افتراضي، على الرغم من وجود بدائل أخرى مناسبة، بما في ذلك النماذج القائمة على الرسم البياني. في هذه الورقة، نقوم بإجراء مقارنة تجريبية وشاملة واسعة النطاق من كل من أساليب الترجيح الإحصائية والرصاص القائمة على الرسم البياني في سياق استخراج الكلمات الرئيسية. يكشف تحليلنا عن بعض النتائج المثيرة للاهتمام مثل مزايا الخصوصية المعروفة الأقل شهرة فيما يتعلق ب TF-IDF، أو الاختلافات النوعية بين الأساليب الإحصائية والرصاص القائمة على الرسم البياني. وأخيرا، بناء على نتائجنا نناقشها واستنباد بعض الاقتراحات للممارسين. تعد شفرة المصدر لإعادة إنتاج نتائجنا التجريبية، بما في ذلك مكتبة استخراج الكلمات الرئيسية، متوفرة في المستودع التالي: https://github.com/asahi417/kex
استخراج العلاقات غير المدعومة من قبل أزواج كيان التجمع التي لها نفس العلاقات في النص. تقوم بعض الأساليب المتنوعة (VAE) المتنوعة (VAE) بتدريب نموذج استخراج العلاقة كترفيه يولد تصنيفات العلاقة. يتم تدريب وحدة فك الترميز جنبا إلى جنب مع التشفير لإعادة ب ناء إدخال التشفير بناء على تصنيفات العلاقة التي يتم إنشاؤها المشن. هذه التصنيفات هي متغير كامن حتى يطلب منهم اتباع توزيع مسبق محدد مسبقا يؤدي إلى تدريب غير مستقر. نقترح تقنية استخراج العلاقات التي تعتمد عليها VAE تقوم بتغيير هذا القيد باستخدام التصنيفات كمتغير متوسط ​​بدلا من متغير كامن. على وجه التحديد، تكون التصنيفات مشروطة بإدخال الجملة، في حين أن المتغير الكامن مشروط على كل من التصنيفات وإدخال الجملة. يتيح ذلك نموذجنا لتوصيل وحدة فك الترميز مع التشفير دون وضع قيود على توزيع التصنيف؛ الذي يحسن استقرار التدريب. يتم تقييم نهجنا على بيانات DataSet NYT وتفوق الطرق الحديثة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا