قمنا بإحضار البيانات من صفحات مواقع التواصل الاجتماعي تويتر، ثم عملنا
عليها عملية تنظيف و تجهيز للنص من أجل عملية التصنيف فالنصوص المسترجعة
تحتوي على الكثير من الضجيج و المعلومات غير المفيدة المتعلقة بعملية تحليل الآراء
مثل الاعلانات و الروابط و عناوين البريد الالكتروني و وجود العديد من الكلمات التي لا
تؤثر على التوجه العام للنص، و بعد الحصول على كل المنشورات في صفحة الفيسبوك
و ما هي التعليقات الخاصة حول كل المنشور المراد معرفة النسبة المئوية للآراء الإيجابية
و الآراء السلبية له.
طبّقنا خوارزمية بايز في التصنيف و أجرينا عليها التدريب المناسب و بعد تمرير
بيانات التغريدات (الآراء) حصلنا على نتائج جيدة حول نسبة المؤيدين للمنشور و نسبة
المعارضين له.
We bring the data from the social networking site Twitter
pages, and then we have worked on cleaning and processing
operation to the text of for the classification process texts retrieved
contain a lot of noise and information is useful for the process of
analyzing the views, such as advertisements and links and e-mail
addresses and the presence of many words that do not affect the
general orientation of the text, and then get all the publications in
the Twitter page and what are the comments about each tweets is
intended to know the proportion of supporters and opponents of
this publication.
We apply Naïve Bayes algorithm in classification, we had the
appropriate training, and after passing Posts and comments data
(opinions), we got good results on the ratio of supporters of the
post and the percentage of his opponents.
Artificial intelligence review:
Research summary
تناول البحث تحليل الآراء في تويتر باستخدام تقنيات التنقيب في البيانات، حيث تم استخدام خوارزمية بايز لتصنيف التغريدات إلى آراء إيجابية وسلبية. بدأ البحث بجمع البيانات من تويتر، ثم تم تنظيف النصوص من الضجيج والمعلومات غير المفيدة مثل الإعلانات والروابط. بعد ذلك، تم تطبيق خوارزمية بايز على النصوص المصنفة مسبقاً للحصول على نسبة المؤيدين والمعارضين لكل تغريدة. أظهرت النتائج دقة تصل إلى 97% في تصنيف الآراء، مما يعكس فعالية الخوارزمية المستخدمة. كما اقترح الباحث تطوير التطبيق ليشمل لغات أخرى مثل العربية وتحليل الآراء في مواقع تواصل اجتماعي أخرى مثل فيسبوك ويوتيوب.
Critical review
دراسة نقدية: يعتبر البحث خطوة هامة في مجال تحليل الآراء باستخدام تقنيات التنقيب في البيانات، إلا أنه يفتقر إلى التعامل مع النصوص المكتوبة باللغة العربية، وهي لغة مهمة لملايين المستخدمين. كما أن الاعتماد على خوارزمية بايز فقط قد يكون محدوداً في التعامل مع النصوص التي تحتوي على مشاعر متناقضة. كان من الأفضل تضمين خوارزميات أخرى مثل الشبكات العصبية لتحسين دقة التصنيف. بالإضافة إلى ذلك، يمكن تحسين البحث بتوسيع نطاقه ليشمل مواقع تواصل اجتماعي أخرى لتقديم صورة أشمل عن الآراء.
Questions related to the research
-
ما هي الخوارزمية المستخدمة في البحث لتحليل الآراء؟
تم استخدام خوارزمية بايز لتحليل وتصنيف الآراء في التغريدات.
-
ما هي نسبة دقة النتائج التي توصل إليها البحث؟
توصل البحث إلى نسبة دقة تصل إلى 97% في تصنيف الآراء.
-
ما هي الخطوات التي تم اتباعها في تنظيف النصوص قبل التصنيف؟
تم تنظيف النصوص من الضجيج والمعلومات غير المفيدة مثل الإعلانات والروابط وعناوين البريد الإلكتروني.
-
ما هي التوصيات المستقبلية التي اقترحها الباحث لتطوير البحث؟
اقترح الباحث تطوير التطبيق ليشمل لغات أخرى مثل العربية وتحليل الآراء في مواقع تواصل اجتماعي أخرى مثل فيسبوك ويوتيوب.
References used
Data Mining Concepts and Techniques Second Edition Jiawei Han and MichelineKamber
H. Tang, S. Tan, X. Cheng, A survey on sentiment detection of reviews, Expert Systems with Applications 36 (7) (2009) 10760 10773
Wilson T, Wiebe J, Hoffman P. Recognizing contextual polarity in phrase-level sentiment analysis
Opinion polls have been the bridge between public opinion and politicians in elections. However, developing surveys to disclose people's feedback with respect to economic issues is limited, expensive, and time-consuming. In recent years, social media
Twitter data has become established as a valuable source of data for various application scenarios in the past years. For many such applications, it is necessary to know where Twitter posts (tweets) were sent from or what location they refer to. Rese
Emotion detection from social media posts has attracted noticeable attention from natural language processing (NLP) community in recent years. The ways for obtaining gold labels for training and testing of the systems for automatic emotion detection
Social media (SM) platforms such as Twitter provide large quantities of real-time data that can be leveraged during mass emergencies. Developing tools to support crisis-affected communities requires available datasets, which often do not exist for lo
The flexibility of the inference process in Variational Autoencoders (VAEs) has recently led to revising traditional probabilistic topic models giving rise to Neural Topic Models (NTM). Although these approaches have achieved significant results, sur