ترغب بنشر مسار تعليمي؟ اضغط هنا

المقارنة بين نماذج المحاكاة و النماذج المدربة لمعالجة البيانات الضخمة

Data model Vs Simulation model in big data

1147   0   28   0.0 ( 0 )
 نشر من قبل جامعة دمشق مقالة
 تاريخ النشر 2019
  مجال البحث الهندسة المعلوماتية
والبحث باللغة العربية
 تمت اﻹضافة من قبل Aya Nasri




اسأل ChatGPT حول البحث

حظي مؤخرا اختصاص البيانات الضخمة باهتمام كبير في مجالات متنوعة منها (الطب , العلوم , الادارة, السياسة , ......) و يهتم هذا الاختصاص بدراسة مجموعة البيانات الضخمة والتي تعجز الادوات والطرق الشائعة على معالجتها و ادارتها و تنظيمها خلال فترة زمنية مقبولة و بناء نموذج للتعامل مع هذه المعطيات والتنبؤ باغراض مطلوبة منها. ولاجراء هذه الدراسات ظهرت طرق عدة منها النماذج التي تعتمد على مجموعة من البيانات و نماذج تعتمد على المحاكاة و في هذه المقالة تم توضيح الفرق بين النموذجين و تطبيق نهج جديد يعتمد على التكامل بين النموذجين لاعطاء نموذح افضل لمعالجة مسالة البيوت البلاستيكة


ملخص البحث
تتناول هذه الورقة البحثية مقارنة بين نماذج المحاكاة (Simulation Modeling) والنماذج المدربة (Data Modeling) في سياق البيانات الضخمة. تُعنى الورقة بتوضيح الفروقات الأساسية بين النموذجين من حيث قدرتهما على التنبؤ والتعامل مع البيانات. يركز نموذج المحاكاة على العلاقة السببية بين المدخلات والمخرجات باستخدام القوانين الفيزيائية، بينما يركز نموذج البيانات على إيجاد العلاقات الارتباطية بين مجموعات البيانات. تتناول الورقة أيضًا نقاط الضعف لكل نموذج، مثل عدم قدرة نموذج البيانات على التعامل مع الظروف المتغيرة والأحداث غير المتوقعة، وصعوبة الحصول على المعرفة المسبقة اللازمة لنموذج المحاكاة. تُقترح طريقة جديدة تجمع بين مزايا النموذجين، وتُطبق هذه الطريقة على نظام التحكم في البيوت البلاستيكية، حيث تُظهر النتائج تحسنًا في الأداء عند استخدام النموذجين معًا.
قراءة نقدية
تُقدم الورقة البحثية تحليلًا شاملًا ومقارنة دقيقة بين نماذج المحاكاة والنماذج المدربة، مما يساهم في فهم أعمق لكيفية استخدام كل نموذج في سياقات مختلفة. ومع ذلك، يُلاحظ أن الورقة قد تكون معقدة بعض الشيء للقارئ غير المتخصص، حيث تحتوي على العديد من المصطلحات الفنية والمعادلات الرياضية. كان من الممكن تبسيط بعض الأجزاء لتكون أكثر وضوحًا. بالإضافة إلى ذلك، كان من الممكن تقديم المزيد من الأمثلة العملية لتوضيح كيفية تطبيق النماذج في مجالات أخرى غير البيوت البلاستيكية.
أسئلة حول البحث
  1. ما الفرق الرئيسي بين نماذج المحاكاة ونماذج البيانات؟

    الفرق الرئيسي يكمن في أن نماذج البيانات تُستخدم لإيجاد العلاقات الارتباطية بين مجموعات البيانات، بينما تُستخدم نماذج المحاكاة لتوضيح العلاقات السببية بين المدخلات والمخرجات باستخدام القوانين الفيزيائية.

  2. ما هي نقاط الضعف الرئيسية لنماذج البيانات؟

    نقاط الضعف الرئيسية لنماذج البيانات تشمل عدم قدرتها على التعامل مع الظروف المتغيرة والأحداث غير المتوقعة، وتأثرها بكمية البيانات المتوفرة.

  3. كيف يمكن تحسين أداء النماذج في تحليل البيانات الضخمة؟

    يمكن تحسين الأداء من خلال استخدام طريقة نمذجة جديدة تجمع بين مزايا نماذج المحاكاة ونماذج البيانات، مما يوفر دقة أكبر في التنبؤ والتعامل مع البيانات.

  4. ما هو التطبيق العملي الذي تم استخدامه في الورقة لتوضيح الفروقات بين النماذج؟

    تم تطبيق النماذج على نظام التحكم في البيوت البلاستيكية، حيث أظهرت النتائج تحسنًا في الأداء عند استخدام النموذجين معًا.


المراجع المستخدمة
ﻻ يوجد مراجع
قيم البحث

اقرأ أيضاً

في السنوات الأخيرة، تلقت معالجة الوقت الحرج (المعالجة في الوقت الحقيقي) وتحليل البيانات الكبيرة قدراً كبيراً من الاهتمام. فهناك العديد من المجالات التي يمكن فيها معالجة البيانات في الوقت الفعلي، حيث أن اتخاذ القرارات في الوقت المناسب يستطيع إنقاذ ا لآلاف من الأرواح البشرية، التقليل من مخاطر أرواح البشر والموارد، تعزيز نوعية حياة البشر، تعزيز فرص الربحية، وإدارة الموارد بفعالية. فتأتي هنا هذه الورقة التي تسّلط الضوء على هذا النوع من التطبيقات التحليلية للبيانات الكبيرة في الوقت الحقيقي وتصّنف تلك التطبيقات. بالإضافة إلى ذلك، فإنها تقدم نظرة عامة على البيانات الكبيرة لوصف المعرفة الأساسية في هذا المجال، فضلاً عن علاقة البيانات الكبيرة بتعلم الآلة وكيفية ربطهم سويًة لتحسين الأداء ورفع سويته.
من خلال دراستنا تم تطوير مكتبة برمجية HadoopOperationTesting تقدم لمختبري تطبيقات البيانات الضخمة آلية لاختبار تطبيقاتهم ضمن بيئة محاكية لبيئة Hadoop بآلية مشابهة لاختبار التطبيقات التقليدية باستخدام المكتبة JUnit.
تمنح نماذج اللغة العصبية المدربة مسبقا أداء عال في مهام الاستدلال اللغوي (NLI).ولكن ما إذا كانوا يفهمون فعلا معنى التسلسلات المصنعة لا يزال غير واضح.نقترح جناح اختبار التشخيص الجديد الذي يسمح بتقييم ما إذا كانت مجموعة البيانات تشكل اختبارا جيدا لتقيي م النماذج معنى فهم القدرات.نحن على وجه التحديد تطبيق تحويلات الفساد التي تسيطر عليها إلى المعايير المستخدمة على نطاق واسع (MNLI و Anli)، والتي تنطوي على إزالة فئات الكلمات بأكملها وغالبا ما تؤدي إلى أزواج الجملة غير الحسية.إذا ظلت دقة النموذجية على البيانات التالفة مرتفعة، فمن المحتمل أن تحتوي مجموعة البيانات على تحيزات إحصائية ومصنوعات تصريفات توقع التنبؤ.عكسيا، يشير انخفاض كبير في الدقة النموذجية إلى أن مجموعة البيانات الأصلية توفر تحديا صحيحا لقدرات منطق النماذج.وبالتالي، يمكن أن تكون عناصر التحكم المقترحة لدينا بمثابة اختبار تحطم لتطوير بيانات عالية الجودة لمهام NLI.
تنمية إرشادات الوثائق والقوالب سهلة الاستخدام لمجموعات البيانات والنماذج مهمة صعبة، خاصة بالنظر إلى مجموعة متنوعة من الخلفيات والمهارات وحوافز الأشخاص المشاركين في بناء أدوات معالجة اللغة الطبيعية (NLP). ومع ذلك، فإن اعتماد ممارسات الوثائق القياسية ف ي مجال NLP يعزز أوصاف أكثر سهولة ومفصلة عن مجموعات البيانات والنماذج NLP، مع دعم الباحثين والمطورين في التفكير في عملهم. للمساعدة في توحيد الوثائق، نقدم دراستين بحالتين للجهود التي تهدف إلى تطوير قوالب الوثائق القابلة لإعادة الاستخدام - بطاقة بيانات المعانقة، بطاقة للأغراض العامة لمجموعات البيانات في NLP، والبيانات القياسية Gem البطاقات النموذجية مع التركيز توليد اللغة الطبيعية. نحن نصف عمليتنا لتطوير هذه القوالب، بما في ذلك تحديد مجموعات أصحاب المصلحة المعنيين، وتعريف مجموعة من المبادئ التوجيهية، واستخدام القوالب الحالية كأساس لدينا، ومراجعات تكرارية تستند إلى ردود الفعل.
نحن نتطلع إلى مشكلة تخصيص نموذج اللغة في التطبيقات التي يحتاجها مكون ASR إلى إدارة المصطلحات الخاصة بالمجال؛ على الرغم من أن تقنية التعرف على الكلام الحالية من أحدث توفر نتائج ممتازة للمجالات العامة، فإن التكيف مع القواميس أو المعانلات المتخصصة لا تز ال مسألة مفتوحة. في هذا العمل، نقدم نهجا لتحسين الجمل تلقائيا، من كوربوس النص، والتي تطابق، كلاهما دلالة ومورفولوجية، مسرد المصطلحات (الكلمات أو الكلمات المركبة) المقدمة من قبل المستخدم. الهدف النهائي هو التكيف بسرعة نموذج اللغة لنظام ASR الهجين مع كمية محدودة من البيانات النصية داخل المجال من أجل التعامل بنجاح مع المجال اللغوي في متناول اليد؛ يتم توسيع مفردات النموذج الأساسي ومصممة خصيصا، مما يقلل من معدل OOV الناتج. يتم تقديم استراتيجيات اختيار البيانات القائمة على البذور المورفولوجية الضحلة والتوجيه الدلالي عبر Word2VEC ومناقشتها؛ يتكون الإعداد التجريبي في سيناريو تفسير في وقت واحد، حيث تم تصميم ASRS في ثلاث لغات للتعرف على شروط DomainSpecific (I.E. DENTITY). تظهر النتائج باستخدام مقاييس مختلفة (معدل OOV، WER، الدقة والتذكر) فعالية التقنيات المقترحة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا