الشخصية والتركيبة السكانية هي متغيرات مهمة في العلوم الاجتماعية والتطبيقات الاجتماعية الحسابية.ومع ذلك، فإن مجموعات البيانات مع كل من الشخصية والملصقات الديموغرافية نادرة.لمعالجة هذا، نقدم باندورا، أول مجموعة بيانات من تعليقات Reddit من مستخدمي 10K المسمى جزئيا مع ثلاث نماذج شخصية والتركيبة السكانية (العمر، النوع الاجتماعي، والموقع)، بما في ذلك مستخدمي 1.6k المسمى مع طراز شخصية كبير راسخة.نعرض فائدة هذه البيانات في ثلاث مجموعات على ثلاث تجارب، حيث نستفيد البيانات المتاحة بسهولة من نماذج شخصية أخرى للتنبؤ بها 5 سمات كبيرة، وتحليل تحيزات التصنيف بين الجنسين الناشئة عن المتغيرات النفسية والديموغرافية، وتنفيذ تحليل تأكد واستكشافي مقرهاعلى النظريات النفسية.أخيرا، نقدم طرازات التنبؤ القياسية لجميع المتغيرات الشخصية والمتغيرات الديموغرافية.
Personality and demographics are important variables in social sciences and computational sociolinguistics. However, datasets with both personality and demographic labels are scarce. To address this, we present PANDORA, the first dataset of Reddit comments of 10k users partially labeled with three personality models and demographics (age, gender, and location), including 1.6k users labeled with the well-established Big 5 personality model. We showcase the usefulness of this dataset on three experiments, where we leverage the more readily available data from other personality models to predict the Big 5 traits, analyze gender classification biases arising from psycho-demographic variables, and carry out a confirmatory and exploratory analysis based on psychological theories. Finally, we present benchmark prediction models for all personality and demographic variables.
المراجع المستخدمة
https://aclanthology.org/
تطبق هذه الورقة نمذجة الموضوع لفهم موضوعات صحة الأم والاهتمامات والأسئلة المعبرين عنها في المجتمعات عبر الإنترنت على مواقع الشبكات الاجتماعية.ندرس تحليل Dirichlet الكامن (LDA) وطريقين حديثين: نموذج موضوع عصبي مع تقطير المعرفة (KD) ونموذج الموضوع المد
نحن نستخدم محول ثنائي الاتجاه عميق لاستخراج نوع شخصية Myers-Briggs من البيانات التي تم إنشاؤها من قبل المستخدم في إعداد التصنيف متعدد العلامات ومتعددة الفئة.DataSet لدينا كبيرة وتكون من ثلاثة مجموعات بيانات شخصية متاحة من منصات وسائل التواصل الاجتماع
في السنوات الأخيرة، استخدم عدد من الدراسات نماذج خطية لتنبؤ بالشخصية بناء على النص.في هذه الورقة، نحن نحلل تجريبيا ومقارنة الإشارات المعجمية التي تم التقاطها في هذه النماذج.نحدد الإشارات المعجمية لكل بعدة من مخطط شخصية MBTI بعدة طرق مختلفة، مع الأخذ
في النشر، يجب أن تستخدم النظم التي تستخدم الكلام كمدخلات من النسخ الآلي.ومع ذلك، عادة عندما يتم تقييم هذه الأنظمة، يفترض أن نسخ الذهب.نحن ندرس صراحة تأثير أخطاء النسخ على الأداء المصاب لنظام متعدد الوسائط على ثلاثة مهام ذات صلة من ثلاث مجموعات بيانات
هدفت الدراسة إلى التعرف على نسبة انتشار اضطراب الشخصية الوسواسية القهرية لدى كمية التربية في جامعة البعث , و التعرف على الفروق في درجات طلبة كلية التربية في جامعة البعث على مقياس اضطراب الشخصية الوسواسية القهرية وفقاً لمتغيرات ) الجنس
و التحصيل الأك