对于shortcut的形式, @大缺弦 的答案很对。当初没有好好看论文,看来还需要提高姿势水平。
简单来说,残差网络效果好,很大程度上依赖于残差连接回传的梯度缓解梯度消失等问题,所以只能取x,实验结果也佐证了这一点。
第一次答题,请多指教Orz。
对于resnet,可以参考Kaiming大神的两篇论文。
[1] K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition,” http://Arxiv.Org, vol. 7, no. 3, pp. 171–180, 2015.
[2] K. He, X. Zhang, S. Ren, and J. Sun, “Identity Mappings in Deep Residual Networks Importance of Identity Skip Connections Usage of Activation Function Analysis of Pre-activation Structure,” no. 1, pp. 1–15, 2016.
- kaiming大神在[1]中提出了残差结构。之前的答主有提到,resnet的提出是为了解决深层网络优化的问题,如果深层网络的后面那些层是恒等映射,那么模型就退化为一个浅层网络。残差结构的输出表示为F(x) + x,相比于用多个堆叠的非线性层直接去学习恒等映射F(x) = x,残差结构直接学习F(x) = 0使得训练更容易些。
![]()
- 至于F(x)长什么样,这个问题不是特别理解。我觉得模型的训练,就是根据一个训练集数据(某个函数加入噪声后的采样)更好地拟合该函数。如果知道了这个函数长什么样,那就不用训练啦。另外,如果真的知道H(x)是什么样,那F(x)就是 H(x) - x 好了。
- 至于为何shortcut的输入时X,而不是X/2或是其他形式。kaiming大神的另一篇文章[2]中探讨了这个问题,对以下6种结构的残差结构进行实验比较,shortcut是X/2的就是第二种,结果发现还是第一种效果好啊。
![]()
|