غالبا ما تكون دراسات العلوم الاجتماعية الحاسوبية تحليل المحتوى في كثير من الأحيان داخل التركيبة السكانية القياسية.نظرا لأن التركيبة السكانية غير متوفرة على العديد من منصات وسائل التواصل الاجتماعي (E.G. Twitter)، فقد استنتجت الدراسات العديد من الدراسات التركيبة السكانية تلقائيا.على الرغم من العديد من الدراسات التي تقدم أداء مفهوم العرق والعرق، لا يزال تدريب النظم العملية بعيد المنال لأن هناك بعض البيانات المشروح.مجموعات البيانات الحالية صغيرة وغير دقيقة، أو تفشل في تغطية المجموعات العرقية والأعرقية الأربعة الأكثر شيوعا في الولايات المتحدة.نقدم طريقة لتحديد التقارير الذاتية عن العرق والعرق من أوصاف الملف الشخصي Twitter.على الرغم من ضجيج الإشراف الآلي، فإن مجموعات بيانات التقرير الذاتي لدينا تمكن التحسينات في أداء التصنيف على بيانات مسح التقارير الذاتية القياسية الذهبية.والنتيجة هي طريقة استنساخ لإنشاء موارد تدريبية واسعة النطاق للسباق والعرق.