Do you want to publish a course? Click here

Data model Vs Simulation model in big data

المقارنة بين نماذج المحاكاة و النماذج المدربة لمعالجة البيانات الضخمة

1145   0   28   0.0 ( 0 )
 Publication date 2019
and research's language is العربية
 Created by Aya Nasri




Ask ChatGPT about the research

No English abstract


Artificial intelligence review:
Research summary
تتناول هذه الورقة البحثية مقارنة بين نماذج المحاكاة (Simulation Modeling) والنماذج المدربة (Data Modeling) في سياق البيانات الضخمة. تُعنى الورقة بتوضيح الفروقات الأساسية بين النموذجين من حيث قدرتهما على التنبؤ والتعامل مع البيانات. يركز نموذج المحاكاة على العلاقة السببية بين المدخلات والمخرجات باستخدام القوانين الفيزيائية، بينما يركز نموذج البيانات على إيجاد العلاقات الارتباطية بين مجموعات البيانات. تتناول الورقة أيضًا نقاط الضعف لكل نموذج، مثل عدم قدرة نموذج البيانات على التعامل مع الظروف المتغيرة والأحداث غير المتوقعة، وصعوبة الحصول على المعرفة المسبقة اللازمة لنموذج المحاكاة. تُقترح طريقة جديدة تجمع بين مزايا النموذجين، وتُطبق هذه الطريقة على نظام التحكم في البيوت البلاستيكية، حيث تُظهر النتائج تحسنًا في الأداء عند استخدام النموذجين معًا.
Critical review
تُقدم الورقة البحثية تحليلًا شاملًا ومقارنة دقيقة بين نماذج المحاكاة والنماذج المدربة، مما يساهم في فهم أعمق لكيفية استخدام كل نموذج في سياقات مختلفة. ومع ذلك، يُلاحظ أن الورقة قد تكون معقدة بعض الشيء للقارئ غير المتخصص، حيث تحتوي على العديد من المصطلحات الفنية والمعادلات الرياضية. كان من الممكن تبسيط بعض الأجزاء لتكون أكثر وضوحًا. بالإضافة إلى ذلك، كان من الممكن تقديم المزيد من الأمثلة العملية لتوضيح كيفية تطبيق النماذج في مجالات أخرى غير البيوت البلاستيكية.
Questions related to the research
  1. ما الفرق الرئيسي بين نماذج المحاكاة ونماذج البيانات؟

    الفرق الرئيسي يكمن في أن نماذج البيانات تُستخدم لإيجاد العلاقات الارتباطية بين مجموعات البيانات، بينما تُستخدم نماذج المحاكاة لتوضيح العلاقات السببية بين المدخلات والمخرجات باستخدام القوانين الفيزيائية.

  2. ما هي نقاط الضعف الرئيسية لنماذج البيانات؟

    نقاط الضعف الرئيسية لنماذج البيانات تشمل عدم قدرتها على التعامل مع الظروف المتغيرة والأحداث غير المتوقعة، وتأثرها بكمية البيانات المتوفرة.

  3. كيف يمكن تحسين أداء النماذج في تحليل البيانات الضخمة؟

    يمكن تحسين الأداء من خلال استخدام طريقة نمذجة جديدة تجمع بين مزايا نماذج المحاكاة ونماذج البيانات، مما يوفر دقة أكبر في التنبؤ والتعامل مع البيانات.

  4. ما هو التطبيق العملي الذي تم استخدامه في الورقة لتوضيح الفروقات بين النماذج؟

    تم تطبيق النماذج على نظام التحكم في البيوت البلاستيكية، حيث أظهرت النتائج تحسنًا في الأداء عند استخدام النموذجين معًا.


References used
No references
rate research

Read More

In recent years, time-critical processing or real-time processing and analytics of bid data have received a significant amount of attentions. There are many areas/domains where real-time processing of data and making timely decision can save thousand s of human lives, minimizing the risks of human lives and resources, enhance the quality of human lives, enhance the chance of profitability, efficient resources management etc. This paper has presented such type of real-time big data analytic applications and a classification of those applications. In addition, it presents the time requirements of each type of these applications along with its significant benefits. Also, a general overview of big data to describe a background knowledge on this scope.
Through our study, the HadoopOperationTesting software library has been developed to provide Big Data applications labs with a mechanism to test their applications in a simulated environment for the Hadoop environment with a similar mechanism to test traditional applications using the JUnit library.
Pre-trained neural language models give high performance on natural language inference (NLI) tasks. But whether they actually understand the meaning of the processed sequences is still unclear. We propose a new diagnostics test suite which allows to assess whether a dataset constitutes a good testbed for evaluating the models' meaning understanding capabilities. We specifically apply controlled corruption transformations to widely used benchmarks (MNLI and ANLI), which involve removing entire word classes and often lead to non-sensical sentence pairs. If model accuracy on the corrupted data remains high, then the dataset is likely to contain statistical biases and artefacts that guide prediction. Inversely, a large decrease in model accuracy indicates that the original dataset provides a proper challenge to the models' reasoning capabilities. Hence, our proposed controls can serve as a crash test for developing high quality data for NLI tasks.
Developing documentation guidelines and easy-to-use templates for datasets and models is a challenging task, especially given the variety of backgrounds, skills, and incentives of the people involved in the building of natural language processing (NL P) tools. Nevertheless, the adoption of standard documentation practices across the field of NLP promotes more accessible and detailed descriptions of NLP datasets and models, while supporting researchers and developers in reflecting on their work. To help with the standardization of documentation, we present two case studies of efforts that aim to develop reusable documentation templates -- the HuggingFace data card, a general purpose card for datasets in NLP, and the GEM benchmark data and model cards with a focus on natural language generation. We describe our process for developing these templates, including the identification of relevant stakeholder groups, the definition of a set of guiding principles, the use of existing templates as our foundation, and iterative revisions based on feedback.
We address the problem of language model customization in applications where the ASR component needs to manage domain-specific terminology; although current state-of-the-art speech recognition technology provides excellent results for generic domains , the adaptation to specialized dictionaries or glossaries is still an open issue. In this work we present an approach for automatically selecting sentences, from a text corpus, that match, both semantically and morphologically, a glossary of terms (words or composite words) furnished by the user. The final goal is to rapidly adapt the language model of an hybrid ASR system with a limited amount of in-domain text data in order to successfully cope with the linguistic domain at hand; the vocabulary of the baseline model is expanded and tailored, reducing the resulting OOV rate. Data selection strategies based on shallow morphological seeds and semantic similarity via word2vec are introduced and discussed; the experimental setting consists in a simultaneous interpreting scenario, where ASRs in three languages are designed to recognize the domainspecific terms (i.e. dentistry). Results using different metrics (OOV rate, WER, precision and recall) show the effectiveness of the proposed techniques.

suggested questions

comments
Fetching comments Fetching comments
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا