当前位置:主页 > 科技论文 > 计算机论文 >

用于实时目标检测的FPGA神经网络加速器设计

发布时间:2022-01-07 13:02
  在FPGA上实现YOLO等目标检测算法,需要从模型量化到硬件优化等多种优化方法.为了缩短硬件延时,使用了三种技术:(1)利用层融合和位宽量化策略来降低计算复杂度;(2)利用具有padding跳过技术的基于列的流水线架构来减少启动时间;(3)利用设计空间探索算法来平衡流水线时间,提高DSP使用效率.为了验证提出的神经网络加速器架构,在ZC706 FPGA上实现了具有1 280×384输入的YOLO网络.与传统加速器相比,取得了1.97倍的延迟缩减或者1.54倍的DSP效率提升. 

【文章来源】:微电子学与计算机. 2020,37(07)北大核心

【文章页数】:6 页

【部分图文】:

用于实时目标检测的FPGA神经网络加速器设计


基于列的流水线与传统流水线的区别

顺序图,顺序图,卷积,权重


步骤1:每个周期,从输入缓存中取出2个输入,从权重缓存中取出2×2个权重.然后,将来自不同卷积核中相同位置的2个权重拼接在一起作为一个输入传送给封装好的乘法器,同时与1个输入相乘,得到2个中间结果.最后,来自不同DSP的相同位置的结果将被分别累加,生成2个累加的中间结果,CONV PE的整个执行周期结束.步骤2:将步骤1循环八次,得到输出特征图上的2个最终结果.循环执行的顺序,先是通道方向,再是高度方向,最后是宽度方向.

流程图,设计空间,硬件资源,算法


由于每层网络的参数(如输入特征图和卷积的尺寸)各不相同,输出每层卷积所需的计算量是不同的.因此,本文提出一种设计空间探索的算法,根据每层卷积的计算量来分配硬件资源,平衡每一层的流水线时间,提高硬件资源利用效率.如图6所示,算法的输入是网络的参数和硬件资源约束,输出是硬件资源分配的策略.首先,根据网络各层的计算量来等比例分配DSP数量,并根据DSP数量来确定并行度参数Ci和Ki.然后,根据并行度参数确定BRAM和带宽分配.如果BRAM和带宽满足硬件资源的约束,则直接输出资源配置结果.否则,按一定比例减少整体DSP数量,重复上述过程,直到满足所有硬件资源约束.

【参考文献】:
期刊论文
[1]YOLO图像检测技术综述[J]. 林健巍.  福建电脑. 2019(09)
[2]一种应用于高分辨率遥感图像目标检测的尺度自适应卷积神经网络[J]. 吴佳祥,刘辉,贺光辉.  微电子学与计算机. 2018(08)



本文编号:3574595

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3574595.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6450a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com