StNet:Local and Global Spatial-Temporal Modeling for Action Recognition阅读笔记

摘要：

相比与处理视频用cnn+rnn或者3dcnn的方法，文章提出了一种能结合局部和全局信息的网络结构stnet，2d卷积处理局部信息，3d卷积处理全局信息

引言：

虽然基于cnn+rnn或者3dcnn的方法已经取得了很大的进步，但是远远未达到和人相提并论的时候，主要面临的挑战，来自于从视频中抽取具有判别性的时空特征，对于cNN+rnn的方法来说，cnn部分用来提取空间信息，rnn部分用来提取时间序列上的信息，但是对于端到端的优化来说，由于rnn结构的存在，使得整体很难优化，但是分开训练cnn和rnn的部分，又不能够更好的结合时空特征的表征。

StNet:Local and Global Spatial-Temporal Modeling for Action Recognition阅读笔记

浏览过的版块