إن المطابقة الستيريو هي أساسية لتنقل الروبوت. ومع ذلك، إن دقة الطرق التقليدية المستخدمة حاليًا بشكل واسع قليلة، في حين أن الطرق المستندة إلى شبكات الخلايا العصبية تحتاج إلى تكاليف حسابية عالية وزمن التشغيل. وهذا هو لأن الحجوم التكلفية المختلفة تلعب دوراً حاسمًا في التوازن بين السرعة والدقة. لذلك، نقترح MSCVNet، والذي يجمع بين الطرق التقليدية والشبكات العصبية لتحسين نوعية الحجم التكلفي. بشكل أكثر تحديدًا، تولد شبكتنا حجوم تكلفية ثلاثية الأبعاد بدقائق مختلفة ومن ثم تستخدم التحويلات الثنائية الأبعاد لإنشاء شبكة ساعة السداسية الجديدة لتجميع التكاليف. في نفس الوقت، نصبح نصبح خطة للتمييز وحساب الخسارة لمناطق الاختلاف الغير متوازية في نتيجة. ووفقًا لموقع الويب الرسمي لكيتي، شبكتنا أسرع بكثير من معظم الطرق التي تحقق أعلى الأداء (24 مرات من CSPN، 44 مرات من GANet، وما إلى ذلك). في نفس الوقت، مقارنة مع الطرق التقليدية (SPS-St، SGM) وشبكات المطابقة الستيريو الحاسوبية السريعة الأخرى (Fast DS-CS، DispNetC، وRTSNet، وما إلى ذلك)، تحقق شبكتنا تحسنًا كبيرًا في الدقة، مثبتة جدارة الإمكانية والقدرة للطريقة المقترحة.
Stereo matching is essential for robot navigation. However, the accuracy of current widely used traditional methods is low, while methods based on CNN need expensive computational cost and running time. This is because different cost volumes play a crucial role in balancing speed and accuracy. Thus we propose MSCVNet, which combines traditional methods and neural networks to improve the quality of cost volume. Concretely, our network first generates multiple 3D cost volumes with different resolutions and then uses 2D convolutions to construct a novel cascade hourglass network for cost aggregation. Meanwhile, we design an algorithm to distinguish and calculate the loss for discontinuous areas of disparity result. According to the KITTI official website, our network is much faster than most top-performing methods (24 times than CSPN, 44 times than GANet, etc.). Meanwhile, compared to traditional methods (SPS-St, SGM) and other real-time stereo matching networks (Fast DS-CS, DispNetC, and RTSNet, etc.), our network achieves a big improvement in accuracy, demonstrating the feasibility and capability of the proposed method.
The deep multi-view stereo (MVS) and stereo matching approaches generally construct 3D cost volumes to regularize and regress the output depth or disparity. These methods are limited when high-resolution outputs are needed since the memory and time c
Recently, the ever-increasing capacity of large-scale annotated datasets has led to profound progress in stereo matching. However, most of these successes are limited to a specific dataset and cannot generalize well to other datasets. The main diffic
Cost aggregation is a key component of stereo matching for high-quality depth estimation. Most methods use multi-scale processing to downsample cost volume for proper context information, but will cause loss of details when upsampling. In this paper,
Deep end-to-end learning based stereo matching methods have achieved great success as witnessed by the leaderboards across different benchmarking datasets (KITTI, Middlebury, ETH3D, etc). However, real scenarios not only require approaches to have st
Convolutional neural network (CNN)-based stereo matching approaches generally require a dense cost volume (DCV) for disparity estimation. However, generating such cost volumes is computationally-intensive and memory-consuming, hindering CNN training