cars算法_从单幅图像到双目立体视觉的3D目标检测算法

<div>
<p></p>
<div style="text-align:center;">
  <img alt="7761edfff874c95ef7abf09900a1f9b9.png" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-ea241be11204e4c6e6c363e23786b734.png">
</div>
<p>原创声明：本文为 SIGAI 原创文章，仅供个人学习使用，未经允许，不能用于商业目的。</p>
<p>其它机器学习、深度学习算法的全面系统讲解可以阅读<b>《机器学习-原理、算法与应用》</b>，清华大学出版社，<b>雷明著</b>，由SIGAI公众号作者倾力打造。</p>
<ul><li>书的购买链接</li><li>书的勘误，优化，源代码资源</li></ul>
<p><b>PDF全文链接：</b>从单幅图像到双目立体视觉的3D目标检测算法</p>
<h2><b>1.导言</b></h2>
<p>经典的计算机视觉问题是通过数学模型或者统计学习识别图像中的物体、场景，继而实现视频时序序列上的运动识别、物体轨迹追踪、行为识别等等。然而，由于图像是三维空间在光学系统的投影，仅仅实现图像层次的识别是不够的，这在无人驾驶系统、增强现实技术等领域表现的尤为突出，计算机视觉的更高层次必然是准确的获得物体在三维空间中的形状、位置、姿态，通过三维重建技术实现物体在三维空间的检测、识别、追踪以及交互。近年来，借助于二维图像层面的目标检测和识别的性能提升，针对如何恢复三维空间中物体的形态和空间位置，研究者们提出了很多有效的方法和策略。</p>
<p>相比图像层面的二维物体检测问题，如何通过图像理解物体在三维空间中的位置通常更加复杂。较为准确的恢复物体的三维信息包含恢复物体表面每个点的三维坐标及三维点之间的关系，计算机图形学中物体三维特征可以表示为重建物体表面的三角化网格和纹理映射，不要求特别精确地场景下，也可以仅仅用三维空间中的立方体表示物体位置。由射影几何学，仅仅依赖一副图像是无法准确恢复物体的三维位置，即使能得到相对位置信息，也无法获得真实尺寸。因此，正确检测目标的3D位置最少需要多个相机或者运动相机组成的立体视觉系统，或者由深度相机、雷达等传感器得到的3D点云数据。</p>
<p></p>
<div style="text-align:center;">
  <img alt="ff566773cda94915ed764bc739393935.png" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-284aefd18fe91be6b268a6c23875b0d3.png">
</div>
<p>图1：两种不同的3D检测。左图中，通过检测得到物体三角网格模型。右图中，由图像特征检测3D空间立方体来表示物体在空间中的位置。</p>
<p>对于特定类型目标，基于机器学习的方法使得通过单目相机进行物体3D检测成为可能。原因是特定类型目标往往具有很强的先验信息，因此依靠给真实物体做标注，联合学习物体类别和物体姿态可以大概估计出物体3D尺寸。不过，为了更好的估计物体的3D位置，更好的方法是结合学习的方法充分融合射影几何知识，来计算物体在真实世界中的尺度和位置。</p>
<p>在这篇文章中，SIGAI将和大家一起回顾一下近年来几个效果较好的3D目标检测算法。针对无人驾驶场景下，如何采用单目相机和双目立体相机实现行人和车辆的3D检测的几个算法进行一些对比和总结。并帮助更好地理解视觉3D目标检测算法的框架和当前主流算法的算法框架和基本原理，如果对本文的观点持有不同的意见，欢迎向我们的公众号发消息一起讨论。</p>
<h2><b>2.3D目标检测算法的分类</b></h2>
<p>通过图像、雷达、深度相机等信号可以检测和识别3D场景信息，从而帮助计算机确定</p>
<p>自身和周围物体的位置关系，做出正确的运动交互和路径规划。从相机得到图像信息，需要正确计算图像点和三维点的对应关系，而雷达和深度相机可以直接得到点云或者点的空间位置。按照传感器和输入数据的不同，可以把3D目标检测分为如下几类：</p>
<p></p>
<div style="text-align:center;">
  <img alt="33ed80fbd3b5250deebd1ad3f9ca7291.png" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-d542ae76f025231fc37f517e1fdcc675.png">
</div>
<p>图2：根据输入信号的不同，3D目标检测的分类。</p>
<p>从点云获取目标信息是比较直观和准确的3D目标检测方法，由于点的深度数据可以直接测量，3D检测问题本质上是3D点的划分问题，Chen[4]等人通过扩展2D检测算法提出了一些利用点云特征估计物体位置的方法。相比于使用雷达系统或者深度相机，使用摄像机系统成本更低，但是需要进行图像点的反投影，计算点在空间中的位置。除此之外，相比于点云数据，图像恢复深度可以适用于