ترغب بنشر مسار تعليمي؟ اضغط هنا

تحليل موضوع التركيز على الكلمات الرئيسية

Keyword-centered Collocating Topic Analysis

266   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أثار التدفق السريع للمعلومات وفرة البيانات النصية على شبكة الإنترنت عن الطلب العاجل على بناء موارد ومراقبة التقنيات المستخدمة لأغراض مختلفة. لاستخراج جوانب المعلومات المفيدة لمجالات معينة من هذه الشركات الكبيرة المتنامية ديناميكية تتطلب طرقا شفافة غير مزودة بحيث تحليل البيانات النصية. اقترحت هذه الورقة تحليل الترحيل الهجين كوسيلة محتملة لاسترداد وتلخيص مواضيع تايوان ذات الصلة المنشورة على Weibo و PTT. من خلال تجمع الكملات من 臺灣 تايوان "في مجموعات من المواضيع عبر إما تجميع كلمة AdgeDings أو مخصصات Dirichlet الكامنة، يمكن تحويل قوائم الكسبات إلى توزيعات الاحتمالات بحيث يمكن تعريف المسافات والوجهات المشابه وحسابها. مع هذه الطريقة، نقوم بإجراء تحليل DIACHRONIC للمشاكل بين Weibo و PTT، مما يوفر وسيلة لتحديد متى وكيف تشابه موضوع بينهما أو يسقط. يتم محاولة وجهة نظر محتمة على السلوك النحوي والآثار السياسية أيضا. وهكذا ألقي هذه الدراسة الضوء على طرق عملية بديلة لطريقة الاستماع للوسائط الاجتماعية المستقبلية بشأن فهم العلاقة عبر المضيق.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تستخدم مصطلح خطط الترجغ على نطاق واسع في معالجة اللغة الطبيعية واسترجاع المعلومات. على وجه الخصوص، فإن وزن المصطلح هو الأساس لاستخراج الكلمات الرئيسية. ومع ذلك، هناك عدد قليل نسبيا دراسات التقييم التي ألقت الضوء على نقاط القوة وأوجه القصور في كل مخطط للتوازن. في الواقع، في معظم الحالات، يلجأ الباحثون والممارسون في معظم الحالات إلى TF-IDF المعروفة بشكل افتراضي، على الرغم من وجود بدائل أخرى مناسبة، بما في ذلك النماذج القائمة على الرسم البياني. في هذه الورقة، نقوم بإجراء مقارنة تجريبية وشاملة واسعة النطاق من كل من أساليب الترجيح الإحصائية والرصاص القائمة على الرسم البياني في سياق استخراج الكلمات الرئيسية. يكشف تحليلنا عن بعض النتائج المثيرة للاهتمام مثل مزايا الخصوصية المعروفة الأقل شهرة فيما يتعلق ب TF-IDF، أو الاختلافات النوعية بين الأساليب الإحصائية والرصاص القائمة على الرسم البياني. وأخيرا، بناء على نتائجنا نناقشها واستنباد بعض الاقتراحات للممارسين. تعد شفرة المصدر لإعادة إنتاج نتائجنا التجريبية، بما في ذلك مكتبة استخراج الكلمات الرئيسية، متوفرة في المستودع التالي: https://github.com/asahi417/kex
استخراج الكلمات الرئيسية هي مهمة تحديد الكلمات (أو تعبيرات متعددة الكلمة) التي تصف أفضل وثيقة معينة وخدمة في بوابات الأخبار لربط مقالات من مواضيع مماثلة. في هذا العمل، نطور وتقييم أساليبنا على أربع مجموعات بيانات جديدة تغطي لغات أقل ممثلة تمثيلا، لغا ت غنية بالمظورة في صناعة وسائل الإعلام الإخبارية الأوروبية (الكرواتية، الإستونية، اللاتفية والروسية). أولا، نؤدي تقييم اثنين من أساليب المحولات العصبية الخاضعة للإشراف، والتكلمة العصبية القائمة على المحولات لتحديد الكلمات الرئيسية (TNT-KID) وتمثيل التشفير ثنائي الاتجاه من المحولات (بيرت) مع وجود ذاكرة عشوائية قصيرة الأجل طويلة الأجل الطويلة الأجل (BILSTM) رأس التصنيف CRF)، ومقارنتها بموجب تردد خط الأساس - تعتمد على تردد المستندات (TF-IDF) مقرها. بعد ذلك، نظهر أنه من خلال الجمع بين الكلمات الرئيسية التي تم استرجها من قبل كل من الأساليب القائم على المحولات العصبية وتوسيع المجموعة النهائية من الكلمات الرئيسية ذات التقنية القائمة على TF-IDF غير المدعومة، يمكننا تحسين استدعاء النظام بشكل كبير، مما يجعلها مناسبة للاستخدام ك نظام التوصية في بيئة مجلس الإعلام.
يعيد هذا العمل أن المعلومات المقدمة من الرسم البياني للكلمات واستخدامها النموذجي من خلال نهج التصنيف المستندة إلى الرسم البياني في سياق استخراج الكلمات الرئيسية.عادة ما تستخدم الأساليب الرسمية القائمة على الرسم البياني المعروف عادة المعرفة من تمثيلات ناقلات Word خلال عملية الترتيب عبر تدابير مركزية شهيرة (على سبيل المثال، تصنيف الصفحات) دون إعطاء الدور الأساسي لتوزيع الناقلات.نحن نعتبر مصفوفة مجاورة تتوافق مع الرسم البياني لكلم وثيقة نصية مستهدفة كتمثيل متجه لمفرداته.نقترح النمذجة القائمة على التوزيع في هذه المصفوفة المجاورة باستخدام خوارزميات (التعلم) غير المعروضة.يتم تأكيد فعالية نهج النمذجة القائمة على التوزيع مقارنة بالأساليب الرسمية القائمة على الرسم البياني في الرسم البياني من خلال دراسة تجريبية واسعة النطاق وفقا لدرجة F1.رمزنا متاح على جيثب.
نقوم بإجراء المعنويات التلقائية وجهة نظر تحليل Corpus الأخبار السلوفينية التي تم إنشاؤها حديثا تحتوي على مقالات تتعلق بموضوع LGBTIQ + عن طريق توظيف مصنف معنويات الأخبار الواحد ونظام للكشف عن التغيير الدلالي.يركز التركيز على الاختلافات في التقارير بين وسائل الإعلام ذات الجودة العالية مع التقاليد الطويلة وسائط إخبارية مع وصلات مالية وسياسية إلى SDS، وهو حزب سياسي على اليمين السلوفيني.تشير النتائج إلى أن الانتماء السياسي للإعلام يمكن أن يؤثر على توزيع المعنويات للمقالات وإطالة مواضيع محددة ل LGBTIQ + محددة، مثل الزواج من نفس الجنس.
تلقت تصنيف النص الإشراف ضعيف اهتماما كبيرا في السنوات الأخيرة لأنه يمكن أن يخفف من العبء الثقيل في التخلص من البيانات الضخمة. من بينها، الأساليب التي يحركها الكلمات الرئيسية هي السائدة حيث يتم استغلال الكلمات الرئيسية التي توفرها المستخدم لتوليد ملصق ات زائفة للنصوص غير المسبقة. ومع ذلك، فإن الطرق الحالية تعالج الكلمات الرئيسية بشكل مستقل، وبالتالي تجاهل الارتباط بينها، والتي ينبغي أن تكون مفيدة إذا استغلت بشكل صحيح. في هذه الورقة، نقترح إطارا جديدا يسمى ClassKG لاستكشاف ارتباط الكلمات الرئيسية الكلمة الرئيسية على الرسم البياني للكلمة الرئيسية بواسطة GNN. إطار عملنا هو عملية تكرارية. في كل تكرار، نقوم أولا بإنشاء رسم بياني للكلمات الرئيسية، لذلك يتم تحويل مهمة تعيين ملصقات زائفة إلى التسجيل عبر الكلمات الرئيسية. لتحسين جودة التعليق التوضيحي، نقدم مهمة ذاتية الإشراف على الصنع بتقسيم Annetator Sigcraph، ثم Finetune IT. باستخدام الملصقات الزائفة التي تم إنشاؤها بواسطة Annotator Siggraph، ثم تدريب مصنف نصي لتصنيف النصوص غير المسبق. أخيرا، نعيد استخراج الكلمات الرئيسية من النصوص المبوبة. تظهر تجارب واسعة النطاق على كل من مجموعات البيانات الطويلة والنص القصير أن طريقتنا تتفوق بشكل كبير على تلك الموجودة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا