Do you want to publish a course? Click here

اخترنا في هذا المشروع العمل على تطوير نظام يقوم بتصنيف المستندات العربية حسب محتواها, يقوم هذه النظام بالتحليل اللفظي لكلمات المستند ثم إجراء عملية Stemming"رد الأفعال إلى أصلها" ثم تطبيق عملية إحصائية على المستند في مرحلة تدريب النظام ثم بالاعتماد على خوارزميات في الذكاء الصنعي يتم تصنيف المستند حسب محتواه ضمن عناقيد
نتيجةً للتطور الهائل في العلوم والتكنولوجيا، والانتشار الواسع للإنترنت، باتت المعرفة البشرية في متناول كل شخص منا. لكن ومع هذا الكم الهائل من المعلومات، اصبح القارئ مشتتا بين مصادر عديدة تجعله يضيع في هذا الفضاء الواسع. انفجار المعلومات هذا تطلب وسائ ل للسيطرة عليه تقوم بتنظيم هذه المعلومات وترتيبها تحت عناوين عريضة، وتتتبعها. من هنا بدء المجتمع التقني بالاتجاه نحو مجال جديد اطلق عليه اسم اكتشاف الموضوع وتتبعه. يطبق هذا المفهوم بشكل واسع في مجال شبكات التواصل الاجتماعي، الاخبار، المقالات العلمية وغيرها الكثير. ففي مجال الاخبار كثيرا ما ترى آلاف وكالات الاخبار تبث عشرات الاف القصص الاخبارية حول نفس الحدث، ما دفع البوابات الاخبارية وفي مقدمتها Google news لتطبيق نظام اكتشاف للموضوع وتتبعه. يعنى هذا النظام بمجموعة من المهام المعرفة من قبل منظمة DARPA، أولها مراقبة سيل من القصص النصية المتصلة لمعرفة الحدود الفاصلة بين كل قصة والاخرى، وتدعى تقطيع القصص، ثانيها مهمتها الاجابة على السؤال: هل تناقش قصتان معطاتان نفس الموضوع او الحدث؟ وتدعى اكتشاف الصلة. ثالثها معنية بمراقبة سيل من القصص لاكتشاف تلك التي تناقش موضوعا معرفا من قبل المستخدم، وتدعى بتتبع الموضوع. رابعها تهتم بالتعرف على القصص التي تناقش احداثا جديدة فور وصولها، وتدعى اكتشاف القصة الاولى. واخرها تدعى اكتشاف الموضوع، وهي مسؤولة عن فصل مجموعة من القصص المختلطة الى مواضيع، بدون اي معرفة مسبقة بهذه المواضيع، اي تجميع القصص التي تناقش موضوعا واحدا في نفس العنقود. نعمل من خلال هذا المشروع على تطبيق المهام الاربع الاخيرة وتقييمها. يتم استلام القصص في الزمن الحقيقي، اجراء معالجة مسبقة عليها (معالجة لغوية وغير ذلك)، ثم يتم تمثيل القصص بشكل اشعة وتوزين كلمات كل قصة، يتم بعدها اختيار مجموعة كلمات لتمثيل القصة. اما تمثيل المواضيع فنختبر اشكالا مختلفة، كالتمثيل الشعاعي او التمثيل بالقصص وغير ذلك. نناقش خلال هذا المشروع ايضاً استخدام معايير مختلفة لتمثيل القصص وقياس تشابهها، ونختبر استخدام عنوان القصة وتاريخها كمميزات بالإضافة الى مجموعة الكلمات. كما ونتحدث عن منهج خاص بنا لتقييس التشابهات بين القصص والتخفيف من تأثير عمليات اختيار العتبات في النظام، ونعرض التحسينات المذهلة التي يبديها هذا المنهج، والتي تمكن من بناء نظام اكتشاف موضوع وتتبعه، دون القلق حول تحديد العتبة اطلاقا، والذي لطالما كان يمثل التحدي الاكبر لهذا النوع من الانظمة. نتحدث عن تطبيقنا لخوارزميات العنقدة الاكثر تطورا في مهمة اكتشاف الموضوع، ونعرض كيفية قيامنا بتعديل مصفوفة التجاذب في خوارزمية العنقدة الطيفية المطروحة واستخدام طريقة تقييس مختلفة تم تكييفها مع حالة نظامنا، والتي ادت الى تحسين اداء العنقدة من 0.89 الى 0.97 مقاسا على F-measure
In this research, we offered a new and simple way of Handwriting Characters Recognition. This way extracts positions of the black points from binary images (black, white) according to certain coordinates which are used in the stages of training an d testing. The extracted positions are stored in a database according to appropriate structure for predictive data mining. We used training data to build a predictive model which helps in Recognition testing data depending on the data stored in the database. We have conducted a number of tests on different samples of handwriting character images. We got accurate results, within the required conditions.
In recent years, time-critical processing or real-time processing and analytics of bid data have received a significant amount of attentions. There are many areas/domains where real-time processing of data and making timely decision can save thousand s of human lives, minimizing the risks of human lives and resources, enhance the quality of human lives, enhance the chance of profitability, efficient resources management etc. This paper has presented such type of real-time big data analytic applications and a classification of those applications. In addition, it presents the time requirements of each type of these applications along with its significant benefits. Also, a general overview of big data to describe a background knowledge on this scope.
يهدف التنقيب في النصوص بشكل عام إلى تحليل النصوص لاستخلاص معارف ذات جودة عالية من عدة مصادر نصية، والربط فيما بينها لتشكيل حقائق وفرضيات جديدة. تعد الأوراق البحثية التمثيل الأكثر اكتمالاً للمعرفة البشرية. وقد ساهمت حركة "الوصول المفتوح" إلى الأوراق ا لبحثية، بالإضافة إلى ازدهار حقل التعلم الآلي في الآونة الأخيرة وتوفر الأدوات البرمجية والعتادية بكلف منخفضة نسبياً، بتداعي الحواجز المعيقة لعملية التنقيب في نصوص الأوراق البحثية. في تتمة هذه الدراسة سنستعرض مجموعة من أساليب التنقيب في النصوص العلمية من حيث أهميتها، مجالات استخدامها، وطرق تطبيقها.
حظيت نمذجة وتوقع السلاسل الزمنية بأهمية كبيرة في العديد من المجالات التطبيقية كالتنبؤ بالطقس وأسعار العملات ومعدلات استهلاك الوقود والكهرباء، إن توقع السلاسل الزمنية من شأنه أن يزود المنظمات والشركات بالمعلومات الضرورية لاتخاذ القرارات الهامة، وبسبب أهمية هذا المجال من الناحية التطبيقية فإن الكثير من الأعمال البحثية التي جرت ضمنه خلال السنوات الماضية، إضافةً إلى العدد الكبير من النماذج والخوارزميات التي تم اقتراحها في أدب البحث العلمي والتي كان هدفها تحسين كل من الدقة والكفاءة في نمذجة وتوقع السلاسل الزمنية.
In this work, we compare three different modeling approaches for the scores of soccer matches with regard to their predictive performances based on all matches from the four previous FIFA World Cups 2002 – 2014: Poisson regression models, random forests and ranking methods.
3443 - MIT press 1999 كتاب
Statistical approaches to processing natural language text have become dominant in recent years. It provides broad but rigorous coverage of mathematical and linguistic foundations, as well as detailed discussion of statistical methods, allowing students and researchers to construct their own implementations.
1958 - MIT press 2016 كتاب
Written by three experts in the field, Deep Learning is the only comprehensive book on the subject." -- Elon Musk, co-chair of OpenAI; cof-ounder and CEO of Tesla and SpaceX
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا