【CVPR2017】Richer Convolutional Features for Edge Detection论文阅读笔记

论坛 期权论坛 脚本     
匿名技术用户   2021-4-8 02:03   954   0

一、作者

二、方法概括

本文提出一种准确的边缘检测方法,使用丰富的卷积特征richer convolutional features(RCF)。使用VGG16网络,取得state-of-the-art性能,在BSDS500数据集,获得ODS 0.811,125ms每幅,超过人类性能(ODS 0.803)。此外,我们有个加速版本,33ms每幅,ODS 0.806。

三、创新点和贡献

跟HED很类似,不同之处是将CNN卷积网络的每一层都利用起来,而HED只利用CNN每个阶段的最后一个卷积层。

四、方法细节

  1. 网络结构

网络对VGG16进行了修改。VGG16网络由13个卷积层和3个全连接层构成。不同层的网络结构如下图所示,随着层数加深,感受野加大,提取的特征更粗糙,各层感受野大小如下表所示:

本文的网络结构如下图所示,输入图像为任意尺寸,输出为同尺寸的边缘图。

相比于VGG16,主要更改为:

  1. 移除了pool5和全连接层;
  2. 每个卷积层后跟了一个1*1的卷积层,channel depth为21。每个阶段使用eltwise层将这些结果层相加(对应元素相加),获取混合特征;
  3. 每个eltwise层后跟一个1*1卷积层 ,channel depth为1。然后deconv层去up-sample特征图;
  4. 反卷积后接cross-entropy loss层(训练)/sigmoid层(测试);
  5. 所有up-sampling层串连,然后使用1*1卷积层去融合每个阶段特征图,然后接cross-entropy loss层(训练)/sigmoid层(测试)获得fusion loss/输出。

以上所有参数都是自动学习的,因为VGG16的卷积层的感受野尺寸不同,所以网络可以学到多尺度的特征。

  1. Annotator-robust Loss方程

我们将所有gt进行平均生成边缘概率图,像素值在[0,1]之间,0表示没有annotator进行标注,1表示所有annotator都标注为边缘点。像素值高于 表示正样本,0表示负样本,低于 高于0作为ignore(不计算loss)。

根据像素的label计算每个像素的loss:

分别表示正负样本,超参数 用来平衡正负样本。Xi为像素i的activation值(CNN特征向量), 为像素i的gt边缘概率值。P(X)是标准sigmoid方程,W表示所有学习到的参数。因此,我们的改进的loss方程为:

每个像素在五个阶段和融合层的loss的相加值

是阶段k的激活值, 是融合层的激活值。 是image I的像素个数,K是阶段数,这里为5。

  1. 多尺度层级边缘检测

单尺度边缘检测:输入图像,输出边缘图,尺寸相同。

为了改善边缘质量,我们使用图像金字塔进行测试。resize图像构造图像金字塔,然后分别输入单尺度边缘检测网络。所有边缘图结果经过双线性插值缩放到原始输入尺寸。最后所有边缘图经过平均化得到最终结果。

我们尝试过权重相加,发现平均化效果最好。为了权衡性能和速度,我们使用0.5、1.0、1.5的尺度。多尺度性能从0.806提升至0.811,速度从30FPS降到8FPS。

  1. 与HED的比较

区别在以下三方面:

  1. 网络结构:HED只用了VGG16的每个阶段的最后一层卷积层,丢失了很多边缘信息。
  2. gt选择:提出新的loss方程,只使用标注人标的最多正样本像素。
  3. 多尺度:我们使用多尺度多层级去加强边缘。

实验结果在ODS的F值比HED增加2.3%,证明以上改善有用。

五、实验结果

使用公用平台的Caffe,在ImageNet上预训练的VGG16初始化本网络。Pool4层的stride从2变为1,使用atrous算法填补空洞。RCF训练时,前5阶段的1*1卷积层从0均值、标注方差0.01、偏差0的高斯分布初始化权重。Fusion阶段1*1卷积层的权重从0.2,偏差从0开始初始化。采用minibatch SGD,每个iteration随机采样10张图像,全局学习率为1e-6,每隔1万轮减小10倍。Momentum为0.9,权重衰减为0.0002。我们总共训练4万轮。Loss方程的参数 取决于训练数据。使用GPU Titan X。

  1. BSDS500数据集

训练集200,验证集100,测试集200,每幅图4-9人标注。使用训练集+验证集+Pascal VOC Context数据集作为训练集。 为0.5和1.1。

评价时,细的边缘使用标准NMS过滤。图5显示RCF跟传统和深度学习边缘检测算法的比较。RCF性能最佳,甚至多尺度RCF性能比人眼性能更佳。证明所有卷积层都包含有帮助性的层次信息,并不只有每阶段的最后一层卷积才有用。

速度方面,RCF30FPS,RCF-MS为8FPS,HED为30FPS,Canny为28FPS。

  1. NYUD数据集(略)

NYUD包括1449标注的RGB图像和对应的深度图像,381张训练,414张验证,654张测试。

  1. Multicue数据集(略)

Multicue数据集是为了学习心理物理学来边界检测的。由简短的双目视频组成,视频由100帧具有挑战性的立体摄像头拍摄的自然场景图像构成。

  1. 网络讨论

尝试VGG部分卷积阶段接rcf的side输出,其余部分接hed,在BSDS上训练测试,说明rcf的网络结构比hed的好。

尝试在每个阶段的1*1*21或者1*1*1卷积层后接ReLU层,性能变差。特别是加在1*1*1之后,网络不能很好的收敛。

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:7942463
帖子:1588486
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP