用FPGA实现深度卷积神经网络（5）

先放一张仿真图

yolo的网路将输入图像改为24x24，一共仿真2层，需要428us，由此推算若输入图像为448x448，则仿真两层需要149ms，速度上是不能接受的。因此作为yolo网络在功能上实现了，但是速度远没有达到高速。

作为version 1，我设了100M时钟，并行度为8，总的来说并行度太小，但是胜在设计比较简单。

接下来就是设计version 2，对于ＺCU102（总的DSP为2520）计划设计并行度为128（每个PE需要9个DSP，所需DSP为128x9=1152），并将时钟提高至200M。当然这要求结构更加复杂，数据位宽转化是必不可少的。

然后分享两篇论文：

a) Evaluating Fast Algorithms for Convolutional Neural Networks on FPGAs

b)A High-Efficiency Runtime Reconfigurable IP for CNN Accelerationon a Mid-Range All-Programmable SoC

所以敬请期待v2的结构吧！