أثار التدفق السريع للمعلومات وفرة البيانات النصية على شبكة الإنترنت عن الطلب العاجل على بناء موارد ومراقبة التقنيات المستخدمة لأغراض مختلفة. لاستخراج جوانب المعلومات المفيدة لمجالات معينة من هذه الشركات الكبيرة المتنامية ديناميكية تتطلب طرقا شفافة غير مزودة بحيث تحليل البيانات النصية. اقترحت هذه الورقة تحليل الترحيل الهجين كوسيلة محتملة لاسترداد وتلخيص مواضيع تايوان ذات الصلة المنشورة على Weibo و PTT. من خلال تجمع الكملات من 臺灣 تايوان "في مجموعات من المواضيع عبر إما تجميع كلمة AdgeDings أو مخصصات Dirichlet الكامنة، يمكن تحويل قوائم الكسبات إلى توزيعات الاحتمالات بحيث يمكن تعريف المسافات والوجهات المشابه وحسابها. مع هذه الطريقة، نقوم بإجراء تحليل DIACHRONIC للمشاكل بين Weibo و PTT، مما يوفر وسيلة لتحديد متى وكيف تشابه موضوع بينهما أو يسقط. يتم محاولة وجهة نظر محتمة على السلوك النحوي والآثار السياسية أيضا. وهكذا ألقي هذه الدراسة الضوء على طرق عملية بديلة لطريقة الاستماع للوسائط الاجتماعية المستقبلية بشأن فهم العلاقة عبر المضيق.
The rapid flow of information and the abundance of text data on the Internet have brought about the urgent demand for the construction of monitoring resources and techniques used for various purposes. To extract facets of information useful for particular domains from such large and dynamically growing corpora requires an unsupervised yet transparent ways of analyzing the textual data. This paper proposed a hybrid collocation analysis as a potential method to retrieve and summarize Taiwan-related topics posted on Weibo and PTT. By grouping collocates of 臺灣 Taiwan' into clusters of topics via either word embeddings clustering or Latent Dirichlet allocation, lists of collocates can be converted to probability distributions such that distances and similarities can be defined and computed. With this method, we conduct a diachronic analysis of the similarity between Weibo and PTT, providing a way to pinpoint when and how the topic similarity between the two rises or falls. A fine-grained view on the grammatical behavior and political implications is attempted, too. This study thus sheds light on alternative explainable routes for future social media listening method on the understanding of cross-strait relationship.
References used
https://aclanthology.org/
Term weighting schemes are widely used in Natural Language Processing and Information Retrieval. In particular, term weighting is the basis for keyword extraction. However, there are relatively few evaluation studies that shed light about the strengt
Keyword extraction is the task of identifying words (or multi-word expressions) that best describe a given document and serve in news portals to link articles of similar topics. In this work, we develop and evaluate our methods on four novel data set
This work revisits the information given by the graph-of-words and its typical utilization through graph-based ranking approaches in the context of keyword extraction. Recent, well-known graph-based approaches typically employ the knowledge from word
We conduct automatic sentiment and viewpoint analysis of the newly created Slovenian news corpus containing articles related to the topic of LGBTIQ+ by employing the state-of-the-art news sentiment classifier and a system for semantic change detectio
Weakly-supervised text classification has received much attention in recent years for it can alleviate the heavy burden of annotating massive data. Among them, keyword-driven methods are the mainstream where user-provided keywords are exploited to ge