تركز هذه الورقة على تنظيف البيانات كجزء من إجراء مسبق مسبق تطبق على البيانات النصية المستردة من الويب. على الرغم من أن أهمية هذه المرحلة المبكرة في مشروع باستخدام أساليب NLP غالبا ما يسلط الضوء عليها من قبل الباحثون، فإن التفاصيل، والمبادئ والتقنيات العامة عادة ما يتم استبعادها بسبب النظر في الفضاء. في أحسن الأحوال، يتم رفضهم بتعليق تم تطبيق إجراءات تنظيف البيانات المعتادة ومعالجتها المعتميات ". عادة ما يتم إعطاء المزيد من التغطية الشرح النص التلقائي النصي مثل Lemmatisation ووضع العلامات والتحليلات الجزئية والتحليلات، والتي غالبا ما يتم تضمينها في Preprocessing. في الأدب، يتم استخدام مصطلح المعالجة المسبق "للإشارة إلى مجموعة واسعة من الإجراءات، من التصفية والتنظيف لتحويل البيانات مثل التمثيل الناتج والرقم، مما قد يخلق الارتباك. نقول أن إعادة معالجة النصوص قد تشوه توزيع البيانات الأصلية فيما يتعلق بالبيانات الوصفية، مثل أنواع المواقع والأوقات وأوقات البيانات المسجلة. في هذه الورقة، نصف نهجا منهجيا لتنظيف البيانات النصية الملغومة من قبل شركة لتوفير البيانات لبرنامج العلوم الإنسانية الرقمية (DH) التي تركز على التحليلات الثقافية. نحن نكشف عن أنواع وكمية الضوضاء في البيانات الواردة من مصادر الويب المختلفة وتقدير التغييرات في حجم البيانات المرتبطة بالموافقة المسبقة. نحن أيضا مقارنة نتائج تجربة تصنيف النص يعمل على البيانات الخام ومعالجتها. نأمل أن تساعد تجربتنا ونهجنا على مساعدة مجتمع DH لتشخيص جودة البيانات النصية التي تم جمعها من الويب وإعدادها لمزيد من معالجة اللغة الطبيعية.