ترغب بنشر مسار تعليمي؟ اضغط هنا

علم البيانات واستخراج المعرفة من البيانات الخام

Data science and knowledge extraction from raw data

1868   0   67   0.0 ( 0 )
 نشر من قبل شمرا محاضرة
 تاريخ النشر 2019
  مجال البحث الهندسة المعلوماتية
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shadi Saleh




اسأل ChatGPT حول البحث

تعرض المحاضرة شرح عن علم البيانات وعلاقته بعلم الإحصاء والتعلم الآلي وحالتين دراسيتين عن دور عالم البيانات في تصميم حلول تعتمد على استخراج المعرفة من حجم كبير من البيانات المتوفرة, كما يتم عرض أهم المهام في المؤتمرات العلمية التي يمكن المشاركة بها لطلاب المعلوماتية المهتمين بهذا المجال


ملخص البحث
تتناول الورقة البحثية موضوع علوم البيانات واستخراج المعرفة من البيانات الخام. يقدم المؤلف، شادي صالح، لمحة تاريخية عن تطور هذا المجال منذ عام 1965 عندما اقترح جون توكي إعادة هيكلة علم الإحصاء. يوضح المؤلف كيف توسع هذا العلم ليشمل تجهيز وتنقيح البيانات وتطبيق النماذج الإحصائية. كما يناقش المؤلف الفرق بين علم البيانات وعلم الإحصاء ويشير إلى أن عالم البيانات يجب أن يكون ماهرًا في توظيف تقنيات غير إحصائية. تتناول الورقة أيضًا المهارات المطلوبة لعالم البيانات، مثل البرمجة ومعالجة اللغات الطبيعية والتعلم الآلي. بالإضافة إلى ذلك، يقدم المؤلف حالات دراسية توضح كيفية استخدام هذه المهارات في مجالات مثل اكتشاف الهجمات الإلكترونية وتحليل النصوص الطبية والسياسية. أخيرًا، يسلط الضوء على بعض المهام التي يمكن إدراجها ضمن سياق تحليل البيانات والتعلم الآلي، مثل التنبؤ بالمخاطر الصحية وتحليل النصوص الرقمية.
قراءة نقدية
دراسة نقدية: على الرغم من أن الورقة تقدم نظرة شاملة ومفصلة حول علوم البيانات واستخراج المعرفة، إلا أنها تفتقر إلى الأمثلة العملية والتطبيقات الواقعية التي يمكن أن تساعد القراء على فهم كيفية تطبيق هذه المفاهيم في الحياة العملية. كما أن التركيز الكبير على الجانب التاريخي قد يكون مملًا لبعض القراء الذين يبحثون عن معلومات حديثة وتطبيقية. بالإضافة إلى ذلك، يمكن تحسين الورقة بإضافة المزيد من الرسوم البيانية والشروحات المرئية التي تسهل فهم المفاهيم المعقدة. وأخيرًا، كان من الأفضل تضمين دراسات حالة واقعية توضح كيفية استخدام علوم البيانات في حل مشكلات حقيقية في مجالات مختلفة.
أسئلة حول البحث
  1. ما هو الفرق الأساسي بين علم البيانات وعلم الإحصاء؟

    الفرق الأساسي يكمن في أن علم البيانات يشمل تقنيات غير إحصائية مثل البرمجة ومعالجة اللغات الطبيعية، بينما يركز علم الإحصاء على النماذج الإحصائية التقليدية.

  2. ما هي المهارات المطلوبة لعالم البيانات؟

    المهارات المطلوبة تشمل البرمجة، معالجة اللغات الطبيعية، التعلم الآلي، الإحصاء، وتحليل البيانات.

  3. ما هي بعض التطبيقات العملية لعلوم البيانات التي تم ذكرها في الورقة؟

    بعض التطبيقات تشمل اكتشاف الهجمات الإلكترونية، تحليل النصوص الطبية، وتحليل النصوص السياسية.

  4. ما هي أهمية علم البيانات في الاكتشافات العلمية؟

    علم البيانات يعتبر قوة دافعة في الاكتشافات العلمية عن طريق التجريب، النمذجة، والحساب القائم على البيانات الهائلة، مما يساعد في جمع، إدارة، تحليل، ورسم البيانات لاستخلاص نتائج مفيدة.


المراجع المستخدمة
ﻻ يوجد مراجع
قيم البحث

اقرأ أيضاً

في السنوات الأخيرة، تلقت معالجة الوقت الحرج (المعالجة في الوقت الحقيقي) وتحليل البيانات الكبيرة قدراً كبيراً من الاهتمام. فهناك العديد من المجالات التي يمكن فيها معالجة البيانات في الوقت الفعلي، حيث أن اتخاذ القرارات في الوقت المناسب يستطيع إنقاذ ا لآلاف من الأرواح البشرية، التقليل من مخاطر أرواح البشر والموارد، تعزيز نوعية حياة البشر، تعزيز فرص الربحية، وإدارة الموارد بفعالية. فتأتي هنا هذه الورقة التي تسّلط الضوء على هذا النوع من التطبيقات التحليلية للبيانات الكبيرة في الوقت الحقيقي وتصّنف تلك التطبيقات. بالإضافة إلى ذلك، فإنها تقدم نظرة عامة على البيانات الكبيرة لوصف المعرفة الأساسية في هذا المجال، فضلاً عن علاقة البيانات الكبيرة بتعلم الآلة وكيفية ربطهم سويًة لتحسين الأداء ورفع سويته.
تستكشف هذه الورقة ثلاثة تقنيات معالجة البيانات البسيطة (التوليف، التعزيز، المناهج الدراسية) لتحسين نماذج تلخيص الجماعة دون الحاجة إلى أي بيانات إضافية.نقدم طريقة تخليق البيانات مع إعادة الصياغة، وهي تقنية تكبير البيانات مع خلط العينات، وتعلم المناهج الدراسية مع اثنين من مقاييس صعوبة جديدة بناء على الخصوصية والتغاضي.نقوم بإجراء تجارب لإظهار أن هذه التقنيات الثلاث يمكن أن تساعد في تحسين تلخيص الجماعي عبر نماذج تلخيص واثنين من مجموعات بيانات صغيرة مختلفة.علاوة على ذلك، نعرض أن هذه التقنيات يمكن أن تحسن الأداء عند تطبيقها بمعزل وعند دمجها.
تناقش ورقة الاستقصاء / المركبة هذه الطرق لتحسين تغطية الموارد مثل WordNet.RAPP تقدر الارتباطات، RHO، بين إحصائيات كوربوس ومعايير الهاجولية.RHO يحسن مع الكمية (حجم كوربوس) والجودة (التوازن).1M الكلمات تكفي لتقديرات بسيطة (ترددات غير منغرام)، ولكن 100x على الأقل مطلوب لتقديرات جيدة للجمعيات والمواد المدمجة.نظرا مثل هذه التقديرات، فإن تغطية Wordnet رائعة.تم تطوير WordNET في SEMCOR، عينة صغيرة (كلمات 200K) من كوربوس البني.محاولات إكمال الرسم البياني المعرفي (KGC) تعلم الروابط المفقودة من مجموعات فرعية من مجموعات فرعية.لكن تقديرات Rapp للأحجام تشير إلى أنها ستكون أكثر ربحية لجمع المزيد من البيانات من استنتاج المعلومات المفقودة التي ليست موجودة.
نقدم دراسة منهجية حول الكشف عن النية متعددة اللغات والتبلغة من البيانات المنطوقة.تنفد الدراسة على أن مورد جديد تم طرحه في هذا العمل، الذي يطلق عليه عقول -14، وهو موارد تدريب وتقييم أول مهمة معرف مع البيانات المنطوقة.ويغطي 14 حداثة مستخرجة من نظام تجا ري في مجال الخدمات المصرفية الإلكترونية، المرتبطة بالأمثلة المنطوقة في 14 نوعا متنوعا باللغة.تشير نتائجنا الرئيسية إلى أن الجمع بين نماذج الترجمة الآلية مع وجود ترميز جملة متعددة اللغات الحديثة (على سبيل المثال، LASSE) تسفر عن كاشفات نية قوية في غالبية اللغات المستهدفة المشمولة في العقول -14، وتقديم تحليلات مقارنة عبر محاور مختلفة: على سبيل المثال، اتجاه الترجمة، تأثير التعرف على الكلام، تكبير البيانات من مجال ذي صلة.نرى هذا العمل كخطوة مهمة نحو تطوير وتقييم أكثر شمولية لمعرف متعدد اللغات من البيانات المنطوقة، ونأمل في طيف أوسع بكثير من اللغات مقارنة بالعمل السابق.
تمنح نماذج اللغة العصبية المدربة مسبقا أداء عال في مهام الاستدلال اللغوي (NLI).ولكن ما إذا كانوا يفهمون فعلا معنى التسلسلات المصنعة لا يزال غير واضح.نقترح جناح اختبار التشخيص الجديد الذي يسمح بتقييم ما إذا كانت مجموعة البيانات تشكل اختبارا جيدا لتقيي م النماذج معنى فهم القدرات.نحن على وجه التحديد تطبيق تحويلات الفساد التي تسيطر عليها إلى المعايير المستخدمة على نطاق واسع (MNLI و Anli)، والتي تنطوي على إزالة فئات الكلمات بأكملها وغالبا ما تؤدي إلى أزواج الجملة غير الحسية.إذا ظلت دقة النموذجية على البيانات التالفة مرتفعة، فمن المحتمل أن تحتوي مجموعة البيانات على تحيزات إحصائية ومصنوعات تصريفات توقع التنبؤ.عكسيا، يشير انخفاض كبير في الدقة النموذجية إلى أن مجموعة البيانات الأصلية توفر تحديا صحيحا لقدرات منطق النماذج.وبالتالي، يمكن أن تكون عناصر التحكم المقترحة لدينا بمثابة اختبار تحطم لتطوير بيانات عالية الجودة لمهام NLI.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا