نقترح نسخ المتداول من تخصيص Dirichlet الكامن، يسمى Rollinglda. من خلال نهج متتابع، فإنه يتيح بناء سلسلة الزمن القائم على LDA من الموضوعات التي تتفق مع الدول السابقة لنماذج LDA. بعد النمذجة الأولي، يمكن حساب التحديثات بكفاءة، مما يسمح للرصد في الوقت الفعلي والكشف عن الأحداث أو الاستراتيجات الهيكلية. لهذا الغرض، نقترح تدابير تشابه مناسبة للموضوعات وتوفير دليل محاكاة على التفوق على النهج الأخرى الشائعة الاستخدام. يتم توضيح كفاية الطريقة الناتجة من خلال تطبيق على مثال Corpus. على وجه الخصوص، نحسب التشابه المتمثل في توزيعات الموضوعات التي تم الحصول عليها بالتتابع على فترات زمنية متتالية. للحصول على مثال تمثيلي، تتكون من مقالات نيويورك تايمز من عام 1980 إلى 2020، نقوم بتحليل تأثير العديد من خيارات المعلمات ضبطها وندير طريقة Rollinglda على مجموعة البيانات الكاملة التي تبلغ حوالي 4 ملايين مادة لإظهار جدوائها.
We propose a rolling version of the Latent Dirichlet Allocation, called RollingLDA. By a sequential approach, it enables the construction of LDA-based time series of topics that are consistent with previous states of LDA models. After an initial modeling, updates can be computed efficiently, allowing for real-time monitoring and detection of events or structural breaks. For this purpose, we propose suitable similarity measures for topics and provide simulation evidence of superiority over other commonly used approaches. The adequacy of the resulting method is illustrated by an application to an example corpus. In particular, we compute the similarity of sequentially obtained topic and word distributions over consecutive time periods. For a representative example corpus consisting of The New York Times articles from 1980 to 2020, we analyze the effect of several tuning parameter choices and we run the RollingLDA method on the full dataset of approximately 4 million articles to demonstrate its feasibility.
المراجع المستخدمة
https://aclanthology.org/
غالبا ما يتم استخدام مخصصات Dirichlet الكامنة (LDA)، وهو نموذج موضوع يستخدم على نطاق واسع كأداة أساسية لتحليل النص في التطبيقات المختلفة. ومع ذلك، فإن عملية التدريب لنموذج LDA عادة ما تتطلب بيانات كوربوس نصية ضخمة. من ناحية، قد تعرض هذه البيانات الضخ
في هذه الورقة، نستكشف مهمة توليد أوصاف اللغة الطبيعية تلقائيا لأنماط بارزة في سلسلة زمنية، مثل أسعار الأسهم لشركة أكثر من أسبوع. يجب أن يكون نموذج لهذه المهمة قادرا على استخراج أنماط رفيعة المستوى مثل وجود ذروة أو تراجع. في حين أن النماذج العصبية الم
تطورت نظم معالجة الإشارة Systems Processing Signal تطوراً ملحوظاً و سريعاً، و أتى
هذا التطور نتيجة لتوافر تقانات حديثة للنظم الإلكترونيـة مـن جهـة، و نتيجـة لتحقيـق
خوارزميات حساب متقنة و فعالة لمعالجة الإشارة من جهة أخرى.
من أهم تطبيقات معالجة ال
كما هو معروف فإن مسألة تلوين بيان باستخدام أقل عدد من الألوان هي مسألة معقدة
(NP-Hard) المشكلة تتلخص في كيفية تلوين عقد بيان بأقل عدد ممكن من الألوان .
و بحيث لا يكون لأي عقدتين متجاورتين اللون نفسه، أو كيف يمكن تلوين أضلاع هذا
البيان بأقل عدد ممك
نقدم في هذا البحث خوارزمية جديدة لحل بعض المشاكل التي تعاني منها
خوارزميات عنقدة البيانات كالK-Means. هذه الخوارزمية الجديدة قادرة على
عنقدة مجموعة من البيانات بشكل منفرد دون الحاجة لخوارزميات عنقدة أخرى.