用FPGA实现深度卷积神经网络(5)

论坛 期权论坛 脚本     
匿名网站用户   2020-12-19 22:38   80   0


先放一张仿真图


yolo的网路将输入图像改为24x24,一共仿真2层,需要428us,由此推算若输入图像为448x448,则仿真两层需要149ms,速度上是不能接受的。因此作为yolo网络在功能上实现了,但是速度远没有达到高速。

作为version 1,我设了100M时钟,并行度为8,总的来说并行度太小,但是胜在设计比较简单。

接下来就是设计version 2,对于ZCU102(总的DSP为2520)计划设计并行度为128(每个PE需要9个DSP,所需DSP为128x9=1152),并将时钟提高至200M。当然这要求结构更加复杂,数据位宽转化是必不可少的。

然后分享两篇论文:

a) Evaluating Fast Algorithms for Convolutional Neural Networks on FPGAs

b)A High-Efficiency Runtime Reconfigurable IP for CNN Accelerationon a Mid-Range All-Programmable SoC

所以敬请期待v2的结构吧!

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:1136255
帖子:227251
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP