تركز هذه الورقة على تنظيف البيانات كجزء من إجراء مسبق مسبق تطبق على البيانات النصية المستردة من الويب. على الرغم من أن أهمية هذه المرحلة المبكرة في مشروع باستخدام أساليب NLP غالبا ما يسلط الضوء عليها من قبل الباحثون، فإن التفاصيل، والمبادئ والتقنيات العامة عادة ما يتم استبعادها بسبب النظر في الفضاء. في أحسن الأحوال، يتم رفضهم بتعليق تم تطبيق إجراءات تنظيف البيانات المعتادة ومعالجتها المعتميات ". عادة ما يتم إعطاء المزيد من التغطية الشرح النص التلقائي النصي مثل Lemmatisation ووضع العلامات والتحليلات الجزئية والتحليلات، والتي غالبا ما يتم تضمينها في Preprocessing. في الأدب، يتم استخدام مصطلح المعالجة المسبق "للإشارة إلى مجموعة واسعة من الإجراءات، من التصفية والتنظيف لتحويل البيانات مثل التمثيل الناتج والرقم، مما قد يخلق الارتباك. نقول أن إعادة معالجة النصوص قد تشوه توزيع البيانات الأصلية فيما يتعلق بالبيانات الوصفية، مثل أنواع المواقع والأوقات وأوقات البيانات المسجلة. في هذه الورقة، نصف نهجا منهجيا لتنظيف البيانات النصية الملغومة من قبل شركة لتوفير البيانات لبرنامج العلوم الإنسانية الرقمية (DH) التي تركز على التحليلات الثقافية. نحن نكشف عن أنواع وكمية الضوضاء في البيانات الواردة من مصادر الويب المختلفة وتقدير التغييرات في حجم البيانات المرتبطة بالموافقة المسبقة. نحن أيضا مقارنة نتائج تجربة تصنيف النص يعمل على البيانات الخام ومعالجتها. نأمل أن تساعد تجربتنا ونهجنا على مساعدة مجتمع DH لتشخيص جودة البيانات النصية التي تم جمعها من الويب وإعدادها لمزيد من معالجة اللغة الطبيعية.
This paper focuses on data cleaning as part of a preprocessing procedure applied to text data retrieved from the web. Although the importance of this early stage in a project using NLP methods is often highlighted by researchers, the details, general principles and techniques are usually left out due to consideration of space. At best, they are dismissed with a comment The usual data cleaning and preprocessing procedures were applied''. More coverage is usually given to automatic text annotation such as lemmatisation, part-of-speech tagging and parsing, which is often included in preprocessing. In the literature, the term preprocessing' is used to refer to a wide range of procedures, from filtering and cleaning to data transformation such as stemming and numeric representation, which might create confusion. We argue that text preprocessing might skew original data distribution with regard to the metadata, such as types, locations and times of registered datapoints. In this paper we describe a systematic approach to cleaning text data mined by a data-providing company for a Digital Humanities (DH) project focused on cultural analytics. We reveal the types and amount of noise in the data coming from various web sources and estimate the changes in the size of the data associated with preprocessing. We also compare the results of a text classification experiment run on the raw and preprocessed data. We hope that our experience and approaches will help the DH community to diagnose the quality of textual data collected from the web and prepare it for further natural language processing.
المراجع المستخدمة
https://aclanthology.org/
يبدو أن نجاح النماذج اللغوية المستندة إلى بنية المحولات لا يتعارض مع خصائص الخواص المتجاهية الملحوظة التي تعلمتها هذه النماذج.نقوم بحل هذا من خلال إظهار، خلافا للدراسات السابقة، أن التمثيل لا تشغل مخروطا ضيقا، ولكن الانجراف في اتجاهات مشتركة إلى حد م
يمثل عدم المساواة بين الجنسين خسارة كبيرة في الإمكانات البشرية وإدامة ثقافة العنف، وارتفاع الفجوات في مجال الأجور بين الجنسين، وعدم وجود تمثيل المرأة في المناصب العليا والقيادية. يتم استخدام التطبيقات المدعومة من الذكاء الاصطناعي (AI) بشكل متزايد في
هدفت هذه الدراسة إلى التعرف على واقع إدارة الجودة الشاملة في كلية الآداب و العلوم
الإنسانية في جامعة البعث و الى التعرف على العلاقة بين المتغيرات الديموغرافية
و الوظيفية لأفراد العينة و مبادئ إدارة الجودة الشاملة. و استخدمت الدراسة المنهج المسح
ال
في مهام توليد اللغة الطبيعية، يتم استخدام نموذج لغة عصبي لتوليد سلسلة من الكلمات التي تشكل جملة.يمكن اعتبار مصفوفة الوزن الأعلى من طراز اللغة، المعروف باسم طبقة التصنيف، كمجموعة من المتجهات، كل منها يمثل كلمة مستهدفة من قاموس الهدف.يتم تعلم ومكافحة ا
يعد المشروع الصهيو-أمريكي استكمالا للمشاريع التي وضعتها و خططت لها الدوائر الاستعمارية و الصهيونية، و التي كانت تهدف إلى فصل مشرق الوطن العربي عن مغربه، عن طريق زرع الكيان الصهيوني في قلب الوطن العربي، و ذلك بعد سلسلة من الاتفاقيات و المعاهدات التي م