1)刚开始时,在RNN的基础上引入attention,即将两者结合应用,完整解释并附上完整code。详见下链接:
基于RNN+Attention的机器翻译
2)接着,Facebook在CNN的基础上引入attention,参见论文:Convolution Sequence to Sequence Learning
3)16年,Google直接推翻以前的模式,用也仅仅用attention就可以达到效果,甚至更好。参见论文:Attention is all you need.
4)接着Karim在Google的基础上进行改进,利用Weighted Transformer架构达到了更好的Performance.参见论文:Weighted Transformer Network For Machine Translation.
Encoder-Decoder框架
要了解深度学习中的注意力模型,就不得不先谈Encoder-Decoder框架,因为目前大多数注意力模型附着在Encoder-Decoder框架下,当然,其实注意力模型可以看作一种通用的思想,本身并不依赖于特定框架,这点需要注意。
Encoder-Decoder框架可以看作是一种深度学习领域的研究模式,应用场景异常广泛。图2是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示。

|