يستطيع البشر ادارك المشاهد المحيطة بهم خلال أجزاء من الثانية، على الرغم من اختلاف أنواع هذه المشاهد. يعتمد البشر في هذه العملية على معالجة المعلومات البصرية بسرعة فائقة. إضافة إلى ربطها مع مجموعة كبيرة من المعارف المسبقة. وهذا ما تفتقر إليه الحواسيب التي لم تتمكن بعد من الوصول إلى مستويات عالية في فهم المشاهد المحيطة بها.
دأبت معظم الأبحاث التي تعمل ضمن مجال فهم المشاهد، على اختصار عملية فهم المشهد بتصنيفه ضمن مجموعة من التصنيفات المعرفة مسبقا (غابة، مدينة، حديقة)، باستخدام خوارزميات تصنيف او تعلم تلقائي، وهذا ما حد من وصولها إلى فهم دلالة المشهد على نحو عميق. كما قلل من قابلية استخدامها عملياً بسبب وجود مرحلة تدريب لهذه الخوارزميات. ولكن وعلى الرغم من قيام بعض الأبحاث بمحاولة الاستفادة من المعارف المخزنة بصيغة انطولوجيات للوصول إلى عملية فهم أعمق لدلالة المشهد. إلا أن هذه الأبحاث لم تتمكن سوى من العمل ضمن مجال محدد بسبب محدودية الأنطولوجيات المتوفرة حالياً.
نحاول في هذه الأطروحة فهم صور المشاهد دون تحديد تصنيفات معرفة مسبقا لهذه الصور. لن نعتمد في عملية الفهم هذه على مجرد تصنيف لصور المشاهد، وانما سنعتمد إلى استخراج مفاهيم ضمنية عالية المستوى من صور المشهد, بالأعتماد على مفاهيم أولية مستخرجة منها. لا تعبر هذه المفاهيم الضمنية عن الأغراض الموجودة ضمن الصورة فحسب وأنما أيضا عن الأماكن والأحداث والأفعال الموجودة ضمن الصورة. للقيام بذلك، طورنا نظاما خاصا اسميناه ICES ويتالف من مرحلتين.
تعتمد المرحلة الأولى على قاعدة صور غير متخصصة بمجال محدد، دون استخدام خوارزميات تصنيف او تعلم، وتقوم هذه المرحلة باستخراج مجموعة من المفاهيم الأولية من صورة المشهد. بينما تتالف المرحلة الثانية من خوارزمية مخصصة قمنا بتطويرها تحت اسم SMHITS لايجاد المفاهيم المترابطة دلاليا مع مجموعة المفاهيم الأولية, بالاعتماد على شبكة معارف شائعة وغنية دلالياً. أظهرت النتائج تفوق خوارزمية SMHITS على الخوارزمية المعتمدة حاليا في شبكة ConceptNet لاستخراج المفاهيم المرتبطة، وذلك من حيث الدقة والاستفادة من زيادة عدد المفاهيم, كما أظهرت الغنى الدلاي للمفاهيم المستخرجة من قبل ICES مقارنة بالأبحاث الأخرى, وقابليته للتوسع بسهولة.
People live in various environments, although they can understand scenes around them with just a glance. To do this, they depend on their high ability to effectively process visual data and connect it to wide pre-knowledge about what they are expected to see. This is not the case for computers, which can’t reach high levels of scene understanding until now. Most researches treat scene understanding as a usual classification problem, where they have just to classify scenes in predefined limited categories (forest, city, garden). They normally used classification or machine learning algorithms, which limit their ability to understand scenes and reduces their chances to be used in a practical way because of a required training phase of these algorithms. Some researches try to make use of knowledge in Ontologies to reach a high level scene understanding, but these researches are still limited to specific domains only. In this thesis we are trying to understand scene images without any pre-knowledge about their domain. We will not treat this problem as a normal classification problem; however we will extract high level concepts from scene images. These concepts will not only represent objects in the scene, but they will also reflect the places and events in the scene. To do this, we develop a novel algorithm named SMHITS. It depends on a semantically rich common sense knowledge base to extract associated concepts with a primitive group of concepts. To use SMHITS in scene understanding, we also develop a system named ICES. Instead of using a classification or machine learning algorithm, ICES depends on a large dataset of images that is independent of any scene domain. Results show the superiority of SMHITS comparing to current ConceptNet associated concepts extraction algorithm, as it has higher precision and can take advantage of expansion of its knowledge base. Results also show that ICES output concepts are semantically rich.
References used
L. Shapiro and G. C. Stockman, Computer Vision: Prentice Hall, 2001
. R. Davies, Machine Vision: Theory, Algorithms, Practicalities: Morgan Kaufmann Publishers Inc., 2004
. Szeliski, Computer Vision: Algorithms and Applications: Springer-Verlag New York, Inc., 2010.
B. Jiihne and H. Hauflecker, Computer Vision and Applications: A Guide for Students and Practitioners: Academic Press, San Diego, California, 2000.
N. Pears, Y. Liu, and P. Bunting, 3D Imaging, Analysis and Applications :Springer, 2012
A. Oliva, "Scene Perception," in the New Visual Neurosciences, E. J. S. Werner and L. M. Chalupa, Eds., ed: MIT Press, 2012.
A. Oliva, "Visual Scene Perception," Massachusetts Institute of Technology 2009.