ترغب بنشر مسار تعليمي؟ اضغط هنا

مقارنة دلالية لتحسين فهم المشهد

A Semantic Approach for Improving Scene Understanding

860   0   11   0.0 ( 0 )
 تاريخ النشر 2015
  مجال البحث الهندسة المعلوماتية
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يستطيع البشر ادارك المشاهد المحيطة بهم خلال أجزاء من الثانية، على الرغم من اختلاف أنواع هذه المشاهد. يعتمد البشر في هذه العملية على معالجة المعلومات البصرية بسرعة فائقة. إضافة إلى ربطها مع مجموعة كبيرة من المعارف المسبقة. وهذا ما تفتقر إليه الحواسيب التي لم تتمكن بعد من الوصول إلى مستويات عالية في فهم المشاهد المحيطة بها. دأبت معظم الأبحاث التي تعمل ضمن مجال فهم المشاهد، على اختصار عملية فهم المشهد بتصنيفه ضمن مجموعة من التصنيفات المعرفة مسبقا (غابة، مدينة، حديقة)، باستخدام خوارزميات تصنيف او تعلم تلقائي، وهذا ما حد من وصولها إلى فهم دلالة المشهد على نحو عميق. كما قلل من قابلية استخدامها عملياً بسبب وجود مرحلة تدريب لهذه الخوارزميات. ولكن وعلى الرغم من قيام بعض الأبحاث بمحاولة الاستفادة من المعارف المخزنة بصيغة انطولوجيات للوصول إلى عملية فهم أعمق لدلالة المشهد. إلا أن هذه الأبحاث لم تتمكن سوى من العمل ضمن مجال محدد بسبب محدودية الأنطولوجيات المتوفرة حالياً. نحاول في هذه الأطروحة فهم صور المشاهد دون تحديد تصنيفات معرفة مسبقا لهذه الصور. لن نعتمد في عملية الفهم هذه على مجرد تصنيف لصور المشاهد، وانما سنعتمد إلى استخراج مفاهيم ضمنية عالية المستوى من صور المشهد, بالأعتماد على مفاهيم أولية مستخرجة منها. لا تعبر هذه المفاهيم الضمنية عن الأغراض الموجودة ضمن الصورة فحسب وأنما أيضا عن الأماكن والأحداث والأفعال الموجودة ضمن الصورة. للقيام بذلك، طورنا نظاما خاصا اسميناه ICES ويتالف من مرحلتين. تعتمد المرحلة الأولى على قاعدة صور غير متخصصة بمجال محدد، دون استخدام خوارزميات تصنيف او تعلم، وتقوم هذه المرحلة باستخراج مجموعة من المفاهيم الأولية من صورة المشهد. بينما تتالف المرحلة الثانية من خوارزمية مخصصة قمنا بتطويرها تحت اسم SMHITS لايجاد المفاهيم المترابطة دلاليا مع مجموعة المفاهيم الأولية, بالاعتماد على شبكة معارف شائعة وغنية دلالياً. أظهرت النتائج تفوق خوارزمية SMHITS على الخوارزمية المعتمدة حاليا في شبكة ConceptNet لاستخراج المفاهيم المرتبطة، وذلك من حيث الدقة والاستفادة من زيادة عدد المفاهيم, كما أظهرت الغنى الدلاي للمفاهيم المستخرجة من قبل ICES مقارنة بالأبحاث الأخرى, وقابليته للتوسع بسهولة.


ملخص البحث
تتناول هذه الأطروحة مشكلة فهم المشاهد من خلال تطوير نظام جديد يعتمد على استخراج المفاهيم الضمنية من الصور بدلاً من تصنيفها ضمن تصنيفات محددة مسبقاً. تعتمد الأطروحة على تطوير خوارزمية جديدة تسمى SMHITS التي تعتمد على شبكة معارف شائعة لاستخراج المفاهيم المرتبطة دلالياً بمجموعة من المفاهيم الأولية المستخرجة من الصور. يتكون النظام المقترح، المسمى ICES، من مرحلتين: الأولى تعتمد على قاعدة صور غير متخصصة لاستخراج المفاهيم الأولية، والثانية تعتمد على خوارزمية SMHITS لاستخراج المفاهيم الضمنية. أظهرت النتائج تفوق خوارزمية SMHITS على الخوارزميات الحالية من حيث الدقة والغنى الدلالي للمفاهيم المستخرجة.
قراءة نقدية
على الرغم من أن الأطروحة تقدم حلاً مبتكراً لمشكلة فهم المشاهد، إلا أن هناك بعض النقاط التي يمكن تحسينها. أولاً، تعتمد الأطروحة بشكل كبير على قاعدة الصور المستخدمة، مما قد يحد من تطبيق النظام في مجالات أخرى تحتاج إلى قواعد صور مختلفة. ثانياً، لا تزال الخوارزمية تعتمد على شبكة معارف شائعة قد تحتوي على بعض الأخطاء أو التناقضات في العلاقات الدلالية. ثالثاً، يمكن تحسين النظام من خلال دمج تقنيات تعلم الآلة الحديثة مثل التعلم العميق لتحسين دقة استخراج المفاهيم الضمنية.
أسئلة حول البحث
  1. ما هي الخوارزمية الجديدة التي تم تطويرها في هذه الأطروحة؟

    الخوارزمية الجديدة التي تم تطويرها تسمى SMHITS، وهي تعتمد على شبكة معارف شائعة لاستخراج المفاهيم المرتبطة دلالياً بمجموعة من المفاهيم الأولية المستخرجة من الصور.

  2. ما هي المراحل التي يتكون منها نظام ICES؟

    يتكون نظام ICES من مرحلتين: الأولى تعتمد على قاعدة صور غير متخصصة لاستخراج المفاهيم الأولية، والثانية تعتمد على خوارزمية SMHITS لاستخراج المفاهيم الضمنية.

  3. ما هي النتائج التي أظهرتها خوارزمية SMHITS مقارنة بالخوارزميات الحالية؟

    أظهرت النتائج تفوق خوارزمية SMHITS على الخوارزميات الحالية من حيث الدقة والغنى الدلالي للمفاهيم المستخرجة.

  4. ما هي النقاط التي يمكن تحسينها في الأطروحة؟

    يمكن تحسين الأطروحة من خلال تقليل الاعتماد على قاعدة الصور المستخدمة، تحسين دقة شبكة المعارف الشائعة، ودمج تقنيات تعلم الآلة الحديثة مثل التعلم العميق.


المراجع المستخدمة
L. Shapiro and G. C. Stockman, Computer Vision: Prentice Hall, 2001
. R. Davies, Machine Vision: Theory, Algorithms, Practicalities: Morgan Kaufmann Publishers Inc., 2004
. Szeliski, Computer Vision: Algorithms and Applications: Springer-Verlag New York, Inc., 2010.
B. Jiihne and H. Hauflecker, Computer Vision and Applications: A Guide for Students and Practitioners: Academic Press, San Diego, California, 2000.
N. Pears, Y. Liu, and P. Bunting, 3D Imaging, Analysis and Applications :Springer, 2012
A. Oliva, "Scene Perception," in the New Visual Neurosciences, E. J. S. Werner and L. M. Chalupa, Eds., ed: MIT Press, 2012.
A. Oliva, "Visual Scene Perception," Massachusetts Institute of Technology 2009.
قيم البحث

اقرأ أيضاً

لتطبيق الروبوتات بفعالية في بيئات العمل ومساعدة البشر، من الضروري تطوير وتقييم كيفية تأثير التأريض البصري (VG) على أداء الجهاز على الكائنات المستحقة. ومع ذلك، فإن أعمال VG الحالية محدودة في بيئات العمل، مثل المكاتب والمستودعات، حيث عادة ما يتم قطع ال كائنات نظرا لقضايا استخدام الفضاء. في عملنا، نقترح مجموعة بيانات رواية OCID-REF التي تتميز بمهمة تجزئة تعبيرية بالإحالة مع تعبيرات إحالة الكائنات المستحقة. يتكون OCID-REF من 305،694 أشير إلى التعبيرات من 2،300 مشاهد مع توفير صورة RGB ومدخلات السحابة نقطة. لحل مشكلات انسداد تحديا، نجمع بأنه من الأهمية بمكان الاستفادة من إشارات 2D و 3D لحل مشكلات انسداد تحديا. توضح نتائجنا التجريبية فعالية الإشارات 2D و 3D تجميع ولكن تشير إلى الكائنات المغطاة لا تزال تحديا لأنظمة التأريض البصرية الحديثة. OCID-REF متوفر علنا ​​في https://github.com/lluma/ocid-ref
فهم اللغة المنطوقة (SLU) يستخرج المتوسط المقصود من كلام المستخدم وهو عنصر حرج في عوامل المحادثة الافتراضية.في الوكلاء الافتراضيين للمؤسسة (EVAS)، فهم اللغة تحديا كبيرا.أولا، المستخدمين متصلون نادرون غير مألوفين بتوقع تدفق محادثة مصممة مسبقا.ثانيا، يد فع المستخدمون للعملاء من المؤسسة الذين يطالبون بتجربة مستخدم موثوقة ومتسقة وفعالة عند حل مشكلاتها.في هذا العمل، نصف إطارا عاما وقوي لاستخراج النوايا والكيان باستخدام هجينة من النهج الإحصائية القائمة على القواعد.يشمل إطارنا نمذجة الثقة التي تتضمن معلومات من جميع المكونات في خط أنابيب Slu، إضافة نقدية للإستقاط إلى الدقة بالتأكيد.يركز تركيزنا على إنشاء وحدة دقيقة وقابلة للتطوير التي يمكن نشرها بسرعة للحصول على فئة كبيرة من تطبيقات إيفا مع القليل من الحاجة إلى التدخل البشري.
كيف يفهم الناس معنى كلمة صغيرة "عند استخدامها لوصف البعوض أو الكنيسة أو كوكب؟في حين أن البشر لديهم قدرة رائعة على تشكيل معاني من خلال الجمع بين المفاهيم القائمة، فإن نمذجة هذه العملية تحديا.تتناول هذه الورقة هذا التحدي من خلال Cerebra (تمثيلات المعنى المعنى المعني بالسياق في الدماغ) نموذج الشبكة العصبية.يميز Cerebra كيف يتكيف معاني الكلمات بشكل ديناميكي في سياق جملة من خلال الحكم المتحلل في جمهورية FMRI إلى الكلمات والكلمات في ميزات الدلالية المجدولة في الدماغ.يوضح أن الكلمات في سياقات مختلفة لها تمثيلات مختلفة والكلمة التي تعني التغييرات بطريقة ذات معنى إلى الموضوعات البشرية.يمكن أن تستخدم التمثيلات القائمة على سياق Cerebra لجعل تطبيقات NLP أكثر تشبه الإنسان.
الملخص على الرغم من التقدم المحرز في السنوات الأخيرة في معالجة تحديات فهم اللغة الطبيعية (NLU)، فإن غالبية هذا التقدم لا يزال يتركز على اللغات الغنية بالموارد مثل اللغة الإنجليزية. يركز هذا العمل على اللغة الفارسية، واحدة من اللغات المنطوقة على نطاق واسع في العالم، ومع ذلك، هناك عدد قليل من مجموعات بيانات NLU متاحة لهذه اللغة. إن توفر مجموعات بيانات التقييم عالية الجودة ضرورة لتقييم موثوق للتقدم المحرز في مهام ومجال NLU المختلفة. نقدم Parsinlu، أول معيار باللغة الفارسية التي تتضمن مجموعة من مهام فهم اللغة --- قراءة الفهم والتتبع النصي وما إلى ذلك. يتم جمع مجموعات البيانات هذه في العديد من الطرق، وغالبا ما تنطوي على التعليقات التوضيحية اليدوية من قبل المتكلمين الأصليين. ينتج عن هذا أكثر من 14.5 ألف حالة جديدة عبر 6 مهام NLU مميزة. بالإضافة إلى ذلك، نقدم النتائج الأولى من طرازات اللغة أحادية الأحادية ومتعددة اللغات في هذه المعيار ومقارنتها بالأداء البشري، والذي يوفر رؤى قيمة في قدرتنا على معالجة التحديات الفارسية في اللغة الفارسية. نأمل أن يعزز Parsinlu مزيدا من البحث والتقدم في فهم اللغة الفارسية
فهم اللغة الطبيعية (NLU) هو عنصر ثابت داخل نظام مساعد AI أو مساعد رقمي، وهو مسؤول عن إنتاج فهم دلالي لطلب المستخدم.نقترح مقاربة قابلة للتطوير والتلقائي لتحسين NLU في نظام AI محادثة على نطاق واسع من خلال الاستفادة من تعليقات المستخدم الضمنية، مع وجود نظرة ثاقبة لبيانات تفاعل المستخدم وسياق الحوار معلومات غنية بما يمكن استنتاج رضا المستخدم ونيةه.على وجه الخصوص، نقترح إطارا أمرا مدرجا لمنح بيانات الإشراف الجديدة لتحسين NLU من حركة الإنتاج الحي.مع مجموعة واسعة من التجارب، نعرض نتائج تطبيق الإطار وتحسين NLU لنظام إنتاج واسع النطاق عبر 10 مجالات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا