تمثل قدرة التنقيب في المعطيات ( Data Mining ) على استخلاص معلومات تنبوئية من قواعد معطيات ضخمة أداة فعالة في يد الشركات و الأفراد تتيح لهم التركيز على النواحي التي تهمهم من المعطيات الضخمة التي تولدها مسيرة عملهم اليومية. و مع تزايد أهمية هذا العلم تزايدت بشكل متسارع الأدوات التي بنيت لتطبيق مفاهيمه النظرية بأسرع ما يمكن , حتى غدا من الصعب اتخاذ القرار حول أي من هذه الأدوات هو الأمثل لأداء مهمتك المرجوة. تقدم الدراسة مقارنة بين أداتي التنقيب في المعطيات الأكثر استخداما وفقا لاستطلاعات الرأي و هما Rapidminer و لغة البرمجة R بهدف مساعدة الباحث أو المطور على اختيار الأنسب بينهما. اعتمدت المقارنة على سبعة معايير : منصة العمل , الخوارزميات المضمنة, الصيغ المتاحة للدخل و الخرج , إمكانية التمثيل الرسومي , تقييم المستخدمين , البنية و امكانيات التطوير , الأداء بتطبيق مجموعة من خوارزميات التصنيف على عدد من مجموعات البيانات ( data set ) و باستخدام تقنيتي تقسيم cross validation و hold-out للتأكد من النتائج . من خلال الدراسة تبين أن R هي الأداة التي تدعم أكبر عدد من الخوارزميات و صيغ الدخل و الخرج و التمثيل الرسومي بينما تفوق Rapidminer من حيث سهولة الاستخدام و دعمه لعدد أكبر من منصات العمل. أما من حيث الأداء فدقة المصنفات التي بنيت باستخدام مكتبات كانت أعلى إلا في بعض الحالات التي فرضتها طبيعة المعطيات حيث لم يضف أي مرحلة معالجة مسبقة. و أخيرا يغدو الخيار في تفضيل أي الأداتين معتمدا على مدى خبرة المستخدم و هدفه من استخدام الأداة.
The ability of data mining to provide predictive information
derived from huge databases became an effective tool in the hands
of companies and individuals، allowing them to focus on areas that
are important to them from the massive data generated by the
march of their daily lives. Along with the increasing importance of
this science there was a rapidly increasing in the tools that produced
to implement the theory concepts as fast as possible. So it will be
hard to take a decision on which of these tools is the best to
perform the desired task. This study provides a comparison
between the two most commonly used data mining tools according
to opinion polls، namely: Rapidminer and R programming language
in order to help researchers and developers to choose the best suited
tool for them between the two. Adopted the comparison on seven
criteria: platform، algorithms، input/output formats، visualization،
user’s evaluation، infrastructure and potential development، and
performance by applying a set of classification algorithms on a
number of data sets and using two techniques to split data set: cross
validation and hold-out to make sure of the results. The Results
show that R supports the largest number of algorithms، input/output
formats، and visualization. While Rapidminer superiority in terms
of ease of use and support for a greater number of platforms. In
terms of performance the accuracy of classification models that
were built using the R packages were higher. That was not true in
some cases imposed by the nature of the data because we did not
added any pre-processing stage. Finally the preference option in
any tool is depending on the extent of the user experience and
purpose that the tool is used for
Artificial intelligence review:
Questions related to the research
ما هي الأداتان اللتان تم مقارنتهما في الدراسة؟
الأداتان هما Rapidminer ولغة البرمجة R.
ما هي المعايير السبعة التي اعتمدت عليها المقارنة؟
المعايير السبعة هي: منصة العمل، الخوارزميات المضمنة، صيغ الدخل والخرج، إمكانيات التمثيل الرسومي، تقييم المستخدمين، البنية وإمكانيات التطوير، والأداء.
أي الأداتين تدعم أكبر عدد من الخوارزميات وصيغ الدخل والخرج؟
لغة البرمجة R تدعم أكبر عدد من الخوارزميات وصيغ الدخل والخرج.
ما هي الأداة التي تفوقت من حيث سهولة الاستخدام ودعم منصات العمل المتعددة؟
تفوقت أداة Rapidminer من حيث سهولة الاستخدام ودعم منصات العمل المتعددة.
