الشخصية والتركيبة السكانية هي متغيرات مهمة في العلوم الاجتماعية والتطبيقات الاجتماعية الحسابية.ومع ذلك، فإن مجموعات البيانات مع كل من الشخصية والملصقات الديموغرافية نادرة.لمعالجة هذا، نقدم باندورا، أول مجموعة بيانات من تعليقات Reddit من مستخدمي 10K المسمى جزئيا مع ثلاث نماذج شخصية والتركيبة السكانية (العمر، النوع الاجتماعي، والموقع)، بما في ذلك مستخدمي 1.6k المسمى مع طراز شخصية كبير راسخة.نعرض فائدة هذه البيانات في ثلاث مجموعات على ثلاث تجارب، حيث نستفيد البيانات المتاحة بسهولة من نماذج شخصية أخرى للتنبؤ بها 5 سمات كبيرة، وتحليل تحيزات التصنيف بين الجنسين الناشئة عن المتغيرات النفسية والديموغرافية، وتنفيذ تحليل تأكد واستكشافي مقرهاعلى النظريات النفسية.أخيرا، نقدم طرازات التنبؤ القياسية لجميع المتغيرات الشخصية والمتغيرات الديموغرافية.
Personality and demographics are important variables in social sciences and computational sociolinguistics. However, datasets with both personality and demographic labels are scarce. To address this, we present PANDORA, the first dataset of Reddit comments of 10k users partially labeled with three personality models and demographics (age, gender, and location), including 1.6k users labeled with the well-established Big 5 personality model. We showcase the usefulness of this dataset on three experiments, where we leverage the more readily available data from other personality models to predict the Big 5 traits, analyze gender classification biases arising from psycho-demographic variables, and carry out a confirmatory and exploratory analysis based on psychological theories. Finally, we present benchmark prediction models for all personality and demographic variables.
References used
https://aclanthology.org/
This paper applies topic modeling to understand maternal health topics, concerns, and questions expressed in online communities on social networking sites. We examine Latent Dirichlet Analysis (LDA) and two state-of-the-art methods: neural topic mode
We use a deep bidirectional transformer to extract the Myers-Briggs personality type from user-generated data in a multi-label and multi-class classification setting. Our dataset is large and made up of three available personality datasets of various
In recent years, a number of studies have used linear models for personality prediction based on text. In this paper, we empirically analyze and compare the lexical signals captured in such models. We identify lexical cues for each dimension of the M
In deployment, systems that use speech as input must make use of automated transcriptions. Yet, typically when these systems are evaluated, gold transcriptions are assumed. We explicitly examine the impact of transcription errors on the downstream pe
The study aimed to identify the prevalence of obsessive-compulsive personality disorder coercive at Al-Baath University students, and to identify the differences in degrees of Al-Baath University students on the obsessive-compulsive personality disor