论文笔记 (HAttMatting)

搞清楚 PFD 的 input，output大小，形式。
搞清楚本步骤作用
搞清楚如何实现的？具体流程
搞清楚关键字：channel-wise attention

Shared MLP

MLP (Multilayer Perceptron) 多层感知器

使用全连接层（fully connected layer）
只接受向量（vector）作为输入
包含输入，隐藏和输出层
是CNN的一种特殊结构
适用于分类，自然语言处理

CNN (Convolutional Neural Network) 卷积神经网络

局部连接层（locally connected layer）
可接受矩阵（matrix）作为输入
适用于图像处理

Channel-Wise Attention

出处：SCA-CNN：

注意力机制的逻辑灵感来源于人类的注意力机制：对于重点信息的重点注意。就好比我们看一份报纸，第一个进入我们注意力的一般是文章的标题或者大幅图片的目标主题，然后我们的视觉才会顺着这个视觉焦点查找有用信息。正是对重点信息的重点注意，能让人类快速抓住信息本质，更加高效的理解信息框架。深度学习中的注意力机制本质上，正是对所提取的重点信息，进行加权，让重点信息在网络中更加清晰。

本文从SCA-CNN中提到的channel-wise和spacial-wise的角度来理解注意力机制。首先第一个问题，intuitively，如何提取重点信息呢？

首先明确，对于卷积神经网络，特征图就是所提取的多维的重要信息。一般来说，底层的特征图包含低频信息：边缘，发丝等。高层的特征图包含高频信息：比如目标主体形状等。总结特征图的特征：每一层的特征图存在空间结构，每一层又有多个平行的特征图，不同深度的特特征图包含不同信息。

所以，作者总结到：CNN图片特征自然本质上是 spacial,channel-wise and multi-layer的。在此之前，visual attention 机制的使用，多是在spacial 层面的。即在最后一层feature map通过spacial attention，给特种图的每个重点区域的每个像素，加权，借此提取重点信息。

作者认为：这种这在最后一层使用spacial attention 的机制不在足以代表注意力机制：一个能够动态的捕捉特征的提取器。显然，只在最后一层使用Spacial attention是不够的的。作者以此为切入点，引入了channel-wise 和 multi-layer的概念：

与spacial wise attention先比，channel-wise 真正意义的实现了对上线文语义的理解。相对于spacial attention针对于feature map的单一像素加权，channel-wise 更加宏观的给可能含有目标特征的 channel 加权。所以spacial attention更像是找目标物体具体的在特征图的什么位置，找出where。channel-wise attention更像是确定哪些特征图更值得搜索，找出what is it。

多层级制更加丰富了提取信息的可能性，因为特征图首尾相连，下一个特征图取决于上个特征图，对于底层特征图的精确提取也能帮助后面的提取。

那如何加权呢？

-----