深度神经网络硬件加速研究
发布时间:2020-06-18 08:02
【摘要】:随着半导体工艺的不断进步,机器学习领域研究的深入,神经网络成为了近年来实现人工智能的重要机器学习算法之一。神经网络尤其是深度神经网络因其结构的复杂带来的计算复杂度的上升,使得单纯用中央处理器顺序串行执行耗时越来越长。这样不仅给网络的训练带来问题,也给对于实时性有一定要求的网络计算任务带来了问题。因此人们提出了各种各样硬件加速的方式。其中一种比较常见的硬件加速方式是取代了过去数字信号处理器而出现的现场可编程门阵列(Fieled Programmable Gate Array,FPGA)。FPGA以其比较好的并行性和灵活性以及开发成本相对较低等特性受到高校等研究机构的青睐,甚至在一些应用场景直接用于商用产品的开发。目前,大多数FPGA的加速主要针对复杂指令集计算机,即CPU以X86或AMD64为主的计算机,并通过PCIe接口与CPU交换数据和控制信息。并且目前大多数FPGA仅仅加速已经完成训练的神经网络,而不会加速网络的训练过程。为了达到最佳的加速性能,通常FPGA加速会针对特定的神经网络进行优化,使得神经网络的FPGA加速的通用性变差。本文提出一种基于ZYNQ的FPGA加速结构。它以ZYNQ内部自带的ARM(Advanced RISC Machine)作为主要计算核心,ZYNQ自带的FPGA作为神经网络的硬件加速部分,兼顾结构中软硬件的通用性和可扩展性,实现嵌入式神经网络的计算加速。本文提出的结构中,将神经网络中的全连接的矩阵乘法运算以及卷积运算放到FPGA上进行,而ARM负责流程控制,池化和激活函数的运算。本文结构在尽量满足通用性的前提下加速神经网络,因此本文结构中FPGA的互联采用标准的AXI系列协议,并且通过互联模块连接逻辑与处理器。本文中详细描述了关键的软件函数流程以及硬件加速电路的结构。并且在实现了整个结构后,通过LeNet-5手写数字识别网络对加速架构进行测试。在10000张MNIST图像的测试下,识别率在92%,使用FPGA加速前后效果不是特别明显,一张图片的处理时间仅仅减少了1%。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP183;TP332
【图文】:
Zynq-7000SoC框架图
LeNet-5结构图
本文编号:2718950
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP183;TP332
【图文】:
Zynq-7000SoC框架图
LeNet-5结构图
【参考文献】
相关期刊论文 前2条
1 方睿;刘加贺;薛志辉;杨广文;;卷积神经网络的FPGA并行加速方案设计[J];计算机工程与应用;2015年08期
2 王萍,单超;神经网络在通信中的应用[J];现代电子技术;2003年13期
本文编号:2718950
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2718950.html