على الرغم من أن شعبية متزايدة من NLP في العلوم الإنسانية والعلوم الاجتماعية، فقد ترافق التقدم في الأداء النموذجي وتعقيد مخاوف بشأن التفسير والسلطة التوضيحية للتحليل الاجتماعي الثقافي. نموذج شعبي واحد يأخذ طريقا وسط مسافة كلمة المحرك (WMD). يتم تكييفها ظاهريا لتفسيرها، ومع ذلك تم استخدام WMD وتم تطويره بشكل أكبر بطرق تجاهل الجانب الأكثر تفسيرا في كثير من الأحيان: أي مسافات مستوى الكلمات المطلوبة لترجمة مجموعة من الكلمات إلى مجموعة أخرى من الكلمات. لمعالجة هذه الفجوة الواضحة، نقدم WMDECOMPOOPE: مكتبة نموذجية ومكتبة بيثون 1) تتحلل مسافات مستوى المستند في المسافات في مستوياتها المكونة على مستوى الكلمات، و 2) مجموعات في وقت لاحق من تحفيز العناصر المواضيعية، بحيث يتم الاحتفاظ بالمعلومات المعجمية المفيدة تلخيص للتحليل. لتوضيح إمكاناتها في سياق علمي اجتماعي، نطبقها على جثة وسائل التواصل الاجتماعي الطولية لاستكشاف العلاقة المتبادلة بين نظريات المؤامرة والأحرفات الأمريكية المحافظة. أخيرا، نظرا لتعقيد الوقت الكامل في الوقت الحالي، فإننا نقترح بالإضافة إلى طريقة لأخذ عينات من مجموعات البيانات الكبيرة بطريقة استنساخ، مع حدود ضيقة تمنع استقراء النتائج غير الموثوقة بسبب سوء أخذ العينات الممارسات.
Despite the increasing popularity of NLP in the humanities and social sciences, advances in model performance and complexity have been accompanied by concerns about interpretability and explanatory power for sociocultural analysis. One popular model that takes a middle road is Word Mover's Distance (WMD). Ostensibly adapted for its interpretability, WMD has nonetheless been used and further developed in ways which frequently discard its most interpretable aspect: namely, the word-level distances required for translating a set of words into another set of words. To address this apparent gap, we introduce WMDecompose: a model and Python library that 1) decomposes document-level distances into their constituent word-level distances, and 2) subsequently clusters words to induce thematic elements, such that useful lexical information is retained and summarized for analysis. To illustrate its potential in a social scientific context, we apply it to a longitudinal social media corpus to explore the interrelationship between conspiracy theories and conservative American discourses. Finally, because of the full WMD model's high time-complexity, we additionally suggest a method of sampling document pairs from large datasets in a reproducible way, with tight bounds that prevent extrapolation of unreliable results due to poor sampling practices.
References used
https://aclanthology.org/
Online users today are exposed to misleading and propagandistic news articles and media posts on a daily basis. To counter thus, a number of approaches have been designed aiming to achieve a healthier and safer online news and media consumption. Auto
Slow emerging topic detection is a task between event detection, where we aggregate behaviors of different words on short period of time, and language evolution, where we monitor their long term evolution. In this work, we tackle the problem of early
In this paper, we measure variation in framing as a function of foregrounding and backgrounding in a co-referential corpus with a range of temporal distance. In one type of experiment, frame-annotated corpora grouped under event types were contrasted
Word representations empowered with additional linguistic information have been widely studied and proved to outperform traditional embeddings. Current methods mainly focus on learning embeddings for words while embeddings of linguistic information (
Many open-domain question answering problems can be cast as a textual entailment task, where a question and candidate answers are concatenated to form hypotheses. A QA system then determines if the supporting knowledge bases, regarded as potential pr