ترغب بنشر مسار تعليمي؟ اضغط هنا

Rollinglda: خوارزمية تحديث من مخصصات Dirichlet الكامنة للبناء سلسلة زمنية ثابتة من البيانات النصية

RollingLDA: An Update Algorithm of Latent Dirichlet Allocation to Construct Consistent Time Series from Textual Data

319   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقترح نسخ المتداول من تخصيص Dirichlet الكامن، يسمى Rollinglda. من خلال نهج متتابع، فإنه يتيح بناء سلسلة الزمن القائم على LDA من الموضوعات التي تتفق مع الدول السابقة لنماذج LDA. بعد النمذجة الأولي، يمكن حساب التحديثات بكفاءة، مما يسمح للرصد في الوقت الفعلي والكشف عن الأحداث أو الاستراتيجات الهيكلية. لهذا الغرض، نقترح تدابير تشابه مناسبة للموضوعات وتوفير دليل محاكاة على التفوق على النهج الأخرى الشائعة الاستخدام. يتم توضيح كفاية الطريقة الناتجة من خلال تطبيق على مثال Corpus. على وجه الخصوص، نحسب التشابه المتمثل في توزيعات الموضوعات التي تم الحصول عليها بالتتابع على فترات زمنية متتالية. للحصول على مثال تمثيلي، تتكون من مقالات نيويورك تايمز من عام 1980 إلى 2020، نقوم بتحليل تأثير العديد من خيارات المعلمات ضبطها وندير طريقة Rollinglda على مجموعة البيانات الكاملة التي تبلغ حوالي 4 ملايين مادة لإظهار جدوائها.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

غالبا ما يتم استخدام مخصصات Dirichlet الكامنة (LDA)، وهو نموذج موضوع يستخدم على نطاق واسع كأداة أساسية لتحليل النص في التطبيقات المختلفة. ومع ذلك، فإن عملية التدريب لنموذج LDA عادة ما تتطلب بيانات كوربوس نصية ضخمة. من ناحية، قد تعرض هذه البيانات الضخ مة معلومات خاصة في بيانات التدريب، وبالتالي تكبد شواغل الخصوصية الهامة. من ناحية أخرى، قد تتأثر كفاءة التدريب لنموذج LDA، لأن تدريب LDA يحتاج غالبا إلى التعامل مع بيانات كوربوس النص الضخمة. لمعالجة مشكلات الخصوصية في التدريب النموذجي LDA، جمعت بعض الأعمال الحديثة خوارزميات تدريب LDA التي تستند إلى أخذ عينات Gibbs المنهارة (CGS) مع خصوصية تفاضلية. ومع ذلك، فإن هذه الأعمال عادة ما يكون لها ميزانية خصوصية تراكمية عالية بسبب التكرارات الشاسعة في CGS. علاوة على ذلك، فإن هذه الأعمال لديها دائما كفاءة منخفضة بسبب التعامل مع بيانات Corpus النص الضخمة. لتحسين ضمان الخصوصية والكفاءة، نجمع بين طريقة فرعية مع CGS واقتراح خوارزمية تدريب LDA الجديدة مع خصوصية تفاضلية، فرعية LDA. نجد أن التعيين في CGS يحسن بشكل طبيعي الكفاءة أثناء تضخيم الخصوصية. نقترح أداة متري جديدة، وكفاءة - وظيفة الخصوصية، لتقييم تحسينات ضمان الخصوصية والكفاءة. استنادا إلى طريقة فرعية تقليدية، نقترح طريقة عمل قضائية على التكيف لتحسين فائدة النموذج التي تنتجها فرعية LDA عندما تكون النسبة الفرعية صغيرة. نحن نقدم تحليلا شاملا ل Sub-LDA، وتقييم نتائج التجربة تحسيناتها وضمان خصوصيتها.
في هذه الورقة، نستكشف مهمة توليد أوصاف اللغة الطبيعية تلقائيا لأنماط بارزة في سلسلة زمنية، مثل أسعار الأسهم لشركة أكثر من أسبوع. يجب أن يكون نموذج لهذه المهمة قادرا على استخراج أنماط رفيعة المستوى مثل وجود ذروة أو تراجع. في حين أن النماذج العصبية الم عاصرة النموذجية مع آليات الاهتمام يمكن أن تولد أوصاف إخراج بطلاقة لهذه المهمة، فإنها غالبا ما تولد أوصاف غير صحيحة في الواقع. نقترح نموذجا حسابيا مع بنية شرائط للحقيقة تعمل أولا البرامج المستفادة الصغيرة على سلسلة وقت الإدخال، ثم يحدد البرامج / الأنماط التي تمسك بالإدخال المحدد، وأخيرا ظروف * فقط * البرنامج الصحيح الذي تم اختياره (بدلا من ذلك من سلسلة وقت الإدخال) لتوليد وصف نص الإخراج. يتم إنشاء برنامج في طرازنا من الوحدات النمطية، وهي شبكات عصبية صغيرة مصممة لالتقاط الأنماط العددية والمعلومات الزمنية. يتم تقاسم الوحدات النمطية عبر برامج متعددة، مما يتيح التركيبية وكذلك التعلم الفعال لمعلمات الوحدة النمطية. إن الوحدات النمطية، وكذلك تكوين الوحدات النمطية، غير مقصودة في البيانات، ونحن نتعلمهم في أزياء نهاية إلى نهاية مع إشارة التدريب الوحيدة القادمة من أوصاف نص اللغة الطبيعية المصاحبة. نجد أن النموذج المقترح قادر على توليد التسميات التوضيحية عالية الدقة على الرغم من أننا نعتبر مساحة صغيرة وبسيطة من أنواع الوحدات النمطية.
تطورت نظم معالجة الإشارة Systems Processing Signal تطوراً ملحوظاً و سريعاً، و أتى هذا التطور نتيجة لتوافر تقانات حديثة للنظم الإلكترونيـة مـن جهـة، و نتيجـة لتحقيـق خوارزميات حساب متقنة و فعالة لمعالجة الإشارة من جهة أخرى. من أهم تطبيقات معالجة ال إشارة، هي تقانات معالجة الـصور Processing Image . و تعـد عملية الاعتيـان Sampling من العمليات الأساسية و المهمة في معالجة الإشارة التي نحصل منها على عينات يمكن أن تمثل الصورة الأساسية بشكل مثالي. نقدم في هذه المقالة خوارزمية فعالة لترتيب العينات أحادية البعد من الصور ثنائية البعـد، تمكّننا من الحصول على سلسلة عينات تتميز بقدرتها على تمثيل الصور من حيـث البنيـة العامة و من حيث الحفاظ على الترابط الجواري لنقاط الصورة من جهة، و الـسماح بـإجراء معالجات لاحقة بكلفة حسابية أقل من جهة أخرى.
كما هو معروف فإن مسألة تلوين بيان باستخدام أقل عدد من الألوان هي مسألة معقدة (NP-Hard) المشكلة تتلخص في كيفية تلوين عقد بيان بأقل عدد ممكن من الألوان . و بحيث لا يكون لأي عقدتين متجاورتين اللون نفسه، أو كيف يمكن تلوين أضلاع هذا البيان بأقل عدد ممك ن من الألون بحيث لا يكون لضلعين يشتركان بعقدة اللون نفسه. نقدم في هذه الورقة البحثية خوارزمية تلوين جديدة لأضلاع بيان. هذه الخوارزمية تُمكننا من الحصول على تلوين ضلعي مستمر لصف من البيانات الشهيرة.
نقدم في هذا البحث خوارزمية جديدة لحل بعض المشاكل التي تعاني منها خوارزميات عنقدة البيانات كالK-Means. هذه الخوارزمية الجديدة قادرة على عنقدة مجموعة من البيانات بشكل منفرد دون الحاجة لخوارزميات عنقدة أخرى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا