StNet: Local and Global spatial-temporal modeling for action regcognition

论坛 期权论坛 脚本     
匿名技术用户   2021-1-4 01:28   360   0

StNet: Local and Global spatial-temporal modeling for action regcognition

摘要:静态图像理解上取得了成功,高效的视频时序以及空域建模的网络有待发展。兼顾局部时空联系以及全局时空联系的视频时空联合建模网络框架StNet。Stnet将视频中连续N帧图像级联成一个3N通道的图,用2D卷积对图进行局部时空联系的建模。

1.Introduction

CNN+RNN

2D卷积从采样的RGB帧中提取外观特征,其仅利用局部空间信息而不是局部空间-时间信息。

2D到3D?

将较浅的2D conv 映射到他们对应的3D counterparts 可能不足以产生有辨别力的视频描述符;深度将2D conv的3D版本将导致过大的模型以及在训练和推理阶段过大的计算成本。

2.Related work

3.Proposed approach

Super-Image: 对T个时间段进行采样,每个时间段由N个连续的RGB帧而不是单个帧组成。网络的输入是T*3N*H*W,

Temporal Modeling Block: 我们在res3和res4后插入两个时间建模块,the temporal modeling blocks are designed to capture the long-range temporal dynamics inside a video sequence and they can be easily implemented by leveraging the architecture of conv3d-BN3D-RELU

Temporal Xception block:

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:7942463
帖子:1588486
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP