美团无人配送CVPR2020论文CenterMask解读

<div id="js_content">
<img alt="" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-93037476ba839ea728ae7e86f57450e0">
计算机视觉技术是实现自动驾驶的重要部分，美团无人配送团队长期在该领域进行着积极的探索。不久前，高精地图组提出的CenterMask图像实例分割算法被CVPR2020收录，本文将对该方法进行介绍。
CVPR的全称是IEEE Conference on Computer Vision and Pattern Recognition，IEEE国际计算机视觉与模式识别会议，它和ICCV、ECCV并称为计算机视觉领域三大顶会。本届CVPR大会共收到6656篇投稿，接收1470篇，录用率为22%。
背景
one-stage实例分割的意义
图像的实例分割是计算机视觉中重要且基础的问题之一，在众多领域具有十分重要的应用，比如：地图要素提取、自动驾驶车辆感知等。不同于目标检测和语义分割，实例分割需要对图像中的每个实例（物体）同时进行定位、分类和分割。从这个角度看，实例分割兼具目标检测和语义分割的特性，因此更具挑战。当前两阶段（two-stage）目标检测网络（Faster R-CNN[2]系列）被广泛用于主流的实例分割算法（如Mask R-CNN[1]）。
2019年，一阶段（one-stage）无锚点（anchor-free）的目标检测方法迎来了新一轮的爆发，很多优秀的one-stage目标检测网络被提出，如CenterNet[3]、 FCOS[4]等。这一类方法相较于two-stage的算法，不依赖预设定的anchor，直接预测bounding box所需的全部信息，如位置、框的大小、类别等，因此具有框架简单灵活，速度快等优点。于是很自然地便会想到，实例分割任务是否也能够采用这种one-stage anchor-free的思路来实现更优的速度和精度的平衡？我们的论文分析了该问题中存在的两个难点，并提出CenterMask方法予以解决。
<img alt="" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-5cadbf24c7563bb7af20216e62b37aad">图1. 目标检测，语义分割和实例分割的区别
one-stage实例分割的难点
相较于one-stage目标检测，one-stage的实例分割更为困难。不同于目标检测用四个角的坐标即可表示物体的bounding box，实例分割的mask的形状和大小都更为灵活，很难用固定大小的向量来表示。从问题本身出发，one-stage的实例分割主要面临两个难点：
<ul><li> 如何区分不同的物体实例，尤其是同一类别下的物体实例。two-stage的方法利用感兴趣区域（Region of Interest，简称ROI）限制了单个物体的范围，只需要对ROI内部的区域进行分割，大大减轻了其他物体的干扰。而one-stage的方法需要直接对图像中的所有物体进行分割。 </li><li> 如何保留像素级的位置信息，这是two-stage和one-stage的实例分割面临的普遍问题。分割本质上是像素级的任务，物体边缘像素的分割精细程度对最终的效果有较大影响。而现有的实例分割方法大多将固定大小的特征转换到原始物体的大小，或者利用固定个数的点对轮廓进行描述，这些方式都无法较好的保留原始图像的空间信息。 </li></ul>
相关工作介绍
遵照目标检测的设定，现有的实例分割方法可大致分为两类：二阶段（two-stage）实例分割方法和一阶段（one-stage）实例分割方法。
<ul><li> two-stage的实例分割遵循先检测后分割的流程，首先对全图进行目标检测得到bounding box，然后对bounding box内部的区域进行分割，得到每个物体的mask。two-stage的方法的主要代表是Mask R-CNN[1]，该方法在Faster R-CNN[2]的网络上增加了一个mask分割的分支，用于对每个感兴趣区域（Region of Interest，简称ROI）进行分割。而把不同大小的ROI映射为同样尺度的mask会带来位置精度的损失，因此该方法引入了RoIAlign来恢复一定程度的位置信息。PANet[5]通过增强信息在网络中的传播来对Mask R-CNN网络进行改进。Mask Scoring R-CNN[6]通过引入对mask进行打分的模块来改善分割后mask的质量。上述two-stage的方法可以取得SOTA的效果，但是方法较为复杂且耗时，因此人们也开始积极探索更简单快速的one-stage实例分割算法。 </li><li> 现有的one-stage实例分割算法可以大致分为两类：基于全局图像的方法和基于局部图像的方法。基于全局的方法首先生成全局的特征图，然后利用一些操作对特征进行组合来得到每个实例的最终mask。比如，InstanceFCN[7]首先利用全卷积网络[8]（FCN）得到包含物体实例相对位

美团无人配送CVPR2020论文CenterMask解读

浏览过的版块