ترغب بنشر مسار تعليمي؟ اضغط هنا

تقدير تلقائي لوضع الشخص ثلاثي البعد من خلال صورته ثنائية البعد

Automatic Estimation of 3D Human Pose and Shape from a Single Image

1550   0   10   0 ( 0 )
 تاريخ النشر 2018
والبحث باللغة العربية
 تمت اﻹضافة من قبل Ghaith Abu Hakmeh




اسأل ChatGPT حول البحث

إعادة تشكيل وضعيات الإنسان ثلاثية الأبعاد من صورة واحدة ثنائية الأبعاد هي مشكلة تمثل تحديا للعديد من الباحثين. وفي السنوات الأخيرة، كان هناك اتجاه صاعد نحو تحليل الهندسة ثلاثية الأبعاد للكائنات بما في ذلك الأشكال والوضع بدلاً من مجرد تقديم مربعات مربوطة. حيث أن التفكير الهندسي ثلاثي الأبعاد يؤدي إلى توفير معلومات أكثر ثراءً عن المشهد لمهام لاحقة عالية المستوى مثل فهم المشهد والواقع المعزز والتفاعل مع الكمبيوتر البشري، بالإضافة أيضًا تحسين اكتشاف الكائنات [3]، [4]. ولذلك كانت إعادة التشكيل ثلاثية الأبعاد مشكلة مدروسة جيداً، وكانت هناك العديد من التقنيات القابلة للتطبيق عمليًا مثل البنية من الحركة، والأنظمة الصوتية متعددة المقاييس ومستشعرات العمق، ولكن هذه التقنيات محدودة في بعض السيناريوهات. هنا في هذه الورقة، نعرض كيف تم التعامل مع المشكلة في العقود القليلة الماضية، وتحليل التطورات الأخيرة في هذا المجال، والاتجاهات المحتملة للبحث في المستقبل.


ملخص البحث
تتناول هذه الورقة البحثية مشكلة تقدير الوضع ثلاثي الأبعاد لجسم الإنسان من صورة ثنائية الأبعاد واحدة، وهي مشكلة تمثل تحديًا كبيرًا في مجال الرؤية الحاسوبية. تعرض الورقة كيفية التعامل مع هذه المشكلة عبر العقود الماضية وتستعرض التطورات الحديثة في هذا المجال. كما تناقش الورقة الاتجاهات المحتملة للبحث في المستقبل. تتناول الورقة أيضًا كيفية تمثيل الحركة البشرية باستخدام الوضعيات ثلاثية الأبعاد بدلاً من الخصائص منخفضة المستوى، مما يجعلها أكثر قابلية للتطبيق وأصغر حجمًا. تستعرض الورقة العديد من التقنيات المستخدمة في تقدير الوضعيات ثلاثية الأبعاد، مثل البنية من الحركة، الأنظمة الصوتية متعددة المقاييس، ومستشعرات العمق، وتوضح القيود التي تواجهها هذه التقنيات في بعض السيناريوهات. كما تقدم الورقة مقارنة بين الأعمال المشابهة وتستعرض الطرق المختلفة لإزالة الغموض وتحسين كفاءة الخوارزميات. تعتمد الورقة على نموذج SMPLify الذي يستخدم نموذجًا إحصائيًا ثلاثي الأبعاد لأجسام الإنسان، يتم تدريبه على آلاف الأجسام الممسوحة ثلاثيًا. يتم استخدام شبكة عصبية تلافيفية (CNN) للتنبؤ بالمواقع المشتركة في صورة المفاصل ثنائية الأبعاد، ثم يتم ملائمة نموذج ثلاثي الأبعاد للجسم بحيث تقلل المفاصل المتوقعة للنموذج من مدة الخطأ المرجحة القوية. تقدم الورقة أيضًا نموذج SCAPE الذي يستخدم نموذجًا محدود الأبعاد ولكنه مفصل من الشكل والتشوهات المعتمدة على الحالة، والذي يتم استخلاصه من قاعدة بيانات لفحص الأجسام البشرية. يتم تقدير الشكل ثلاثي الأبعاد المفصل ووضع الجسم بشكل مباشر من بيانات الصور باستخدام خوارزمية تحسين تعتمد على البحث العشوائي.
قراءة نقدية
دراسة نقدية: تقدم الورقة البحثية نظرة شاملة ومفصلة حول مشكلة تقدير الوضع ثلاثي الأبعاد لجسم الإنسان من صورة ثنائية الأبعاد واحدة، وتستعرض العديد من التقنيات والنماذج المستخدمة في هذا المجال. ومع ذلك، يمكن أن تكون الورقة أكثر وضوحًا في بعض الأجزاء، حيث أن التفاصيل التقنية المعقدة قد تكون صعبة الفهم للقارئ غير المتخصص. بالإضافة إلى ذلك، يمكن أن تكون الورقة أكثر تفاعلية من خلال تقديم أمثلة تطبيقية توضح كيفية استخدام النماذج والخوارزميات في سيناريوهات حقيقية. كما أن الورقة تعتمد بشكل كبير على النماذج الإحصائية والشبكات العصبية التلافيفية، مما قد يتطلب موارد حوسبة كبيرة، وهو ما يمكن أن يكون عائقًا في بعض التطبيقات العملية. ومع ذلك، فإن الورقة تقدم مساهمة قيمة في مجال الرؤية الحاسوبية وتفتح آفاقًا جديدة للبحث والتطوير في هذا المجال.
أسئلة حول البحث
  1. ما هي المشكلة الرئيسية التي تتناولها الورقة البحثية؟

    المشكلة الرئيسية هي تقدير الوضع ثلاثي الأبعاد لجسم الإنسان من صورة ثنائية الأبعاد واحدة.

  2. ما هي التقنيات الرئيسية المستخدمة في تقدير الوضع ثلاثي الأبعاد؟

    التقنيات الرئيسية تشمل البنية من الحركة، الأنظمة الصوتية متعددة المقاييس، ومستشعرات العمق، بالإضافة إلى النماذج الإحصائية والشبكات العصبية التلافيفية.

  3. ما هو نموذج SMPLify وكيف يتم استخدامه؟

    نموذج SMPLify هو نموذج إحصائي ثلاثي الأبعاد لأجسام الإنسان، يتم تدريبه على آلاف الأجسام الممسوحة ثلاثيًا. يتم استخدام شبكة عصبية تلافيفية (CNN) للتنبؤ بالمواقع المشتركة في صورة المفاصل ثنائية الأبعاد، ثم يتم ملائمة نموذج ثلاثي الأبعاد للجسم بحيث تقلل المفاصل المتوقعة للنموذج من مدة الخطأ المرجحة القوية.

  4. ما هي الفوائد الرئيسية لاستخدام نموذج SCAPE؟

    نموذج SCAPE يتميز بقدرته على تمثيل التشوهات غير الصلبة لجسم الإنسان ويجسد التباين في شكل الجسم بين الأشخاص المختلفين. يتم تعلم النموذج من الأمثلة، مما يمكنه من التقاط مجموعة غنية وطبيعية من أشكال الأجسام ويوفر نموذج شبكي مثلثي ثلاثي الأبعاد أكثر تفصيلاً لجسم الإنسان.


المراجع المستخدمة
Y. Xiang and S. Savarese, “Estimating the aspect layout of object categories,” in International Conference on Computer Vision and Pattern Recognition, 2012.
M. Aubry, D. Maturana, A. Efros, B. Russell, and J. Sivic, “Seeing 3d chairs: exemplar part-based 2d-3d alignment using a large dataset of cad models,” in IEEE Conference on Computer Vision and Pattern Recognition, 2014.
S. Fidler, S. Dickinson, and R. Urtasun, “3d object detection and viewpoint estimation with a deformable 3d cuboid model,” in Advances in Neural Information Processing Systems, 2012.
E. Simo-Serra, A. Quattoni, C. Torras, and F. Moreno-Noguer, “A joint model for 2d and 3d pose estimation from a single image,” in IEEE Conference on Computer Vision and Pattern Recognition, 2013.
Lee, H., Chen, Z.: Determination of 3D human body postures from a single view. Computer Vision Graphics and Image Processing 30(2), 148{168 (1985)
Taylor, C.: Reconstruction of articulated objects from point correspondences in single uncalibrated image. Computer Vision and Image Understanding, CVIU 80(10),349{363 (2000)
Barron, C., Kakadiaris, I.: Estimating anthropometry and pose from a single uncalibrated image. Computer Vision and Image Understanding, CVIU 81(3), 269{284(2001)
Parameswaran, V., Chellappa, R.: View independent human body pose estimation from a single perspective image. In: IEEE Conference on Computer Vision and Pattern Recognition, CVPR. pp. 16{22 (2004)
Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image
قيم البحث

اقرأ أيضاً

تطورت نظم معالجة الإشارة Systems Processing Signal تطوراً ملحوظاً و سريعاً، و أتى هذا التطور نتيجة لتوافر تقانات حديثة للنظم الإلكترونيـة مـن جهـة، و نتيجـة لتحقيـق خوارزميات حساب متقنة و فعالة لمعالجة الإشارة من جهة أخرى. من أهم تطبيقات معالجة ال إشارة، هي تقانات معالجة الـصور Processing Image . و تعـد عملية الاعتيـان Sampling من العمليات الأساسية و المهمة في معالجة الإشارة التي نحصل منها على عينات يمكن أن تمثل الصورة الأساسية بشكل مثالي. نقدم في هذه المقالة خوارزمية فعالة لترتيب العينات أحادية البعد من الصور ثنائية البعـد، تمكّننا من الحصول على سلسلة عينات تتميز بقدرتها على تمثيل الصور من حيـث البنيـة العامة و من حيث الحفاظ على الترابط الجواري لنقاط الصورة من جهة، و الـسماح بـإجراء معالجات لاحقة بكلفة حسابية أقل من جهة أخرى.
تفتقر صور الجنين الناتجة عن أجهزة التصوير بالأمواج فوق الصوتية ثنائية الأبعاد إلى الوضوح و الدقة، مما يؤدي إلى بروز الحاجة لتقديم رؤية ثلاثية الأبعاد للجنين تسمح برؤية العرض و الارتفاع و الزاوية، و ذلك من أجل الحصول على معلومات إضافية عن الجنين و الك شف عن الشذوذات الجنينية. نشرح في هذه المقالة طريقتنا في توليد نماذج ثلاثية الأبعاد للجنين انطلاقاً من صور ثنائية الأبعاد باستخدام نظام حاسوبي دون الحاجة إلى تغيير تجهيزات التصوير ثنائية الأبعاد، و دون الحاجة لحساس موقع. تعتمد طريقتنا على تمرير المجس على بطن الحامل فوق الجنين و إجراء مسح يدوي لكامل جسم الجنين من قمة رأسه و حتى أسفل قدميه، و تخزين المسح كمقطع فيديو، ثم إرساله إلى حاسوب يقوم بتقطيع الفيديو إلى عدة صور تخزن و تعالج باستخدام مبادئ معالجة الصورة الرقمية. تُركَّب بعد ذلك الصور للحصول على مصفوفة الحجم، و من ثم تُظهر بشكل ثلاثي الأبعاد باستخدام طرائق بناء النماذج ثلاثية الأبعاد. نُفّذ البرنامج على عدة أجنة بأعمار مختلفة و حصلنا على صور مجسمة تعد جيدة مقارنة بالصور التي تقدمها الأنظمة و الأجهزة المتوافرة. و تختلف دقة الصور التي حصلنا عليها باختلاف وضعية الجنين و كمية السائل الأمنيوسي و حجم الجنين. يستطيع الطبيب الحصول على تفاصيل أدق للصورة الجديدة بتغيير الزاوية و عرض صور مجسمة لجزء محدد من جسم الجنين.
عندما يحدث الانسكاب النفطي، فإنه من الضروري جدا أن يتم الإسراع قدر الإمكان في الإجراءات اللازمة من أجل تقليل الأضرار الناجمة و التي يمكن أن تؤثر على الإنسان و الطبيعة في نفس الوقت. بالتالي، و من أجل أن يتم القيام بالعمليات الضرورية في الوقت المناسب ا لذي يلي الحادثة مباشرة، تم في هذا البحث تطوير نموذج رقمي ثنائي البعد من أجل دراسة أهم العمليات التي تحدث للبقعة النفطية حال انسكابها من السفن على سطح البحر، ألا و هي عملية الانتشار السطحي، كما تم الأخذ بالاعتبار كل من عمليتي التبخر و الانحلال و التي تؤدي إلى فاقد لابأس به من كمية المادة النفطية سواء في الجو أو في عمود الماء أسفل البقعة النفطية، بالإضافية إلى نمذجة هذه العمليات للانسكاب النفطي المنتشر على سطح البحر باستخدام الطريقة التجريبية. بعدئذ، تم إنشاء سيناريوهات للانسكاب النفطي، و من ثم اختبار انتشار البقعة النفطية ذات الكثافة و الموضع الابتدائي المعروفين، و باستخدام الــ MATLAB، و أخيرا تم إجراء محاكاة للتدفق و مناقشتها أيضا.
يعتبر ضغط الصور أحد أهم فروع معالجة الصورة الرقمية حيث يُعنى بتقليل حجم الصور الملتقطة لتوفير المساحة المخصصة لها على أقراص التخزين و تسهيل عملية نقلها و إرسالها. يُقدِّم هذا البحث طريقة جديدة لضغط الصور المجسمة بالاعتماد على ثلاثة خوارزميات أولها ا لمقارنة بين الصورتين المشكلتين للمنظر المجسم و الاستفادة من خاصية التشابه الكبير بينهما و ترميز الفرق بين الصورتين عوضاً عن ترميز الصورة بشكل كامل، و ثانيها بتقليل الفائض بين عناصر الصورة (Pixels) باستخدام التحويل الانحنائي الرقمي ثنائي البعد حيث نستفيد من قدرة هذا التحويل الكبيرة على تمثيل الانحناءات داخل الصورة بأقل عدد من المعاملات ليتم تكميتها و إزالة المعاملات غير المرغوبة و الحصول على عدد قليل من المعاملات الحاوية على أغلب تفاصيل الصورة، و آخرها باستخدام ترميز هوفمان و الاستفادة من خاصية عدم الفقد التي يتميز بها حيث يمكن ترميز الصورة و تقليل حجم بياناتها دون أن يحصل أي تشويه بالصورة أو فقدان أي جزء من هذه الصورة. كما يتم تقييم أداء خوارزمية البحث المقترح باستخدام معيار نسبة ضغط الصورة (Compression Ratio) أي نسبة عدد البتات الممثلة للصورة بعد الضغط إلى عدد البتات الممثلة للصورة الأصلية قبل الضغط، و كذلك معيار جودة الصورة (PSNR) أي مدى تشابه الصورة المستعادة مع الصورة الأصلية، و معيار متوسط مربعات الأخطاء (MSE) أي مقدار الخطأ في الصورة المستعادة، حيث ينبغي الحصول على أقل قيمة لنسبة ضغط الصور مع أعلى قيمة لجودة الصورة بأقل قيمة للأخطاء.
تعطي أنظمة البث التلفزيوني التي تستطيع إعادة انتاج الصورة ثلاثية الأبعاد فكرة أفضل عن المناظر المتلفزة و تحسن الانطباع الفني و تجعل عملة استعادة الصور أكثر واقعية، و يشعر المشاهد بأنه موجود في موقع التصوير، و تتزايد الحاجة في أنظمة التلفزة إلى إعادة انتاج الصور ذات البعد الثالث. و من أجل تحقيق التآلف بين النظامين ثنائي و ثلاثي الأبعاد، يجب أن يكون عرض حزمة القناة أكبر مرتين من عرض القناة المستخدمة في أنظمة البث التقليدية. يهدف البحث إلى إيجاد وسائل و طرائق تسمح بتخفيض عرض الحزمة المطلوب لمثل هذه الأنظمة ثلاثية الأبعاد الملونة دون الإضرار بنوعية الصورة.
التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا