当前位置:主页 > 科技论文 > 电子信息论文 >

深度学习算法的FPGA硬件加速研究与实现

发布时间:2020-07-23 14:05
【摘要】:近年来,人工智能在理论和应用上都取得了巨大成功,深度学习作为人工智能最重要的研究方向,可以解决更加抽象复杂的问题。然而,由于问题变得更加抽象和复杂,深度学习网络的规模也在逐渐增加,模型的学习时间也随之剧增。所以对深度学习算法加速技术的研究成为大势所趋。相比于中央处理器(Central Processing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)和专用集成电路(Application Specific Integrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)在深度学习算法加速上具有高速度、低功耗、稳定而又延迟极低、适用于流式的计算密集型任务和通信密集型任务、灵活而开发周期短、成本低、便于携带等优势。目前,对深度学习算法的FPGA实现的具体架构的研究并不多,对训练过程的FPGA加速设计研究也较少。卷积神经网络(Convolutional Neural Network,CNN)算法是最常见最重要的深度学习算法之一,它在语音和图像识别等常见应用中取得了突破性成就,因此本文主要基于CNN,从算法基本原理,优化模型并仿真建模,通用硬件架构设计和FPGA实现四个方面对深度学习算法的FPGA加速进行研究与实现。首先,本文介绍了深度神经网络(Deep Neural Network,DNN)算法和CNN算法等深度学习理论。并对模型基本参数的优化选择和正则化、弃权技术等其他优化方法进行了研究,提出了一个具体的Lenet CNN模型,该模型在小规模的简化模型前提下,拥有良好的性能,准确率可达96.64%。然后,本文研究了CNN前向预测过程及后向训练过程的通用硬件架构,提出了基于移位寄存器的串矩转换结构和基于脉动阵列(Systolic Array,SA)的卷积层和池化层的主要运算单元的硬件架构。该架构具有模块化和可扩展性,可搭建任意规模的CNN模型,并且提高了频率和计算吞吐量,减小了I/O带宽需求。同时综合考虑计算时间及资源消耗后,提出了分段拟合逼近的Softmax层硬件设计框架。最后,基于硬件实现架构,分别对Lenet CNN的预测和训练过程进行FPGA实现和系统性能分析验证。首先对预测和训练过程进行Matlab定点仿真验证,然后搭建系统模块,并在Modelsim中进行功能仿真验证,随后分别在XC7K325T-2FFG900和XC7VX690T-2FFG1157上进行FPGA实现。最后分析对比了FPGA实现系统与CPU和GPU等在速度和功耗上的性能,在速度上FPGA比CPU有了3倍左右的提高,在功率上CPU和GPU是FPGA的100倍以上。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18;TN791
【图文】:

参数图,有效数据


图 5-6 CONV_PE 模块的仿真结果图由图下方可以看出,该模块的输入 din 为 28×28=784 个连续的图像特征数据,输入 din_w 为与 din 输入对齐的权值数据,输出由 24 个连续的有效数据段构成,每段有效数据包含 24 个有效数据,因此输出为输出为 24×24 的有效数据。每段有效数据之间间隔 4 个 clk,该间隔为卷积核大小减一。图上方为图下方圈住部分放大图,可以看到与图 5-7 给出的 Matlab 定点仿真部分参数图中所得到的数据一致,经验证 Modelsim 仿真结果与 Matlab 定点仿真的结果完全一致,说明该模块功能正确。

参数图,仿真结果


出 了 Lenet 卷 积 神 经 网 络 中 池化 层 MAXPOOLING1 的 其 中POOLING_PE 模块的仿真结果。图 5-8 MAXPOOLING_PE 模块的仿真结果图图下方可以看出,该模块的输入为 24×24=567 个间断有效的数据,了 fifo,使其变为了连续的 12×12=144 个有效数据。图上方为图下大图,可以看到与图 5-9 给出的 Matlab 定点仿真部分参数图中所得,经验证 Modelsim 仿真结果与 Matlab 定点仿真的结果完全一致,说正确。

开发板,主流标准


图 5-13 KC705 开发板 5-14 为 Xilinx 官方给出的 XC7K325T 的资源情况,用 XC7K325T 来网络,其价格便宜,有足够的逻辑资源以及 BRAM 且外挂 DDR3 Gen3 和 10 Gigabit Ethernet 等主流标准,但需要注意的是它只有 且规格为 25×18,一定程度上限制了网络模型的大小。总言之,这款性价比非常之高,是深度学习硬件实现的理想选择。

【参考文献】

相关期刊论文 前3条

1 尹宝才;王文通;王立春;;深度学习研究综述[J];北京工业大学学报;2015年01期

2 余凯;贾磊;陈雨强;徐伟;;深度学习的昨天、今天和明天[J];计算机研究与发展;2013年09期

3 孙志军;薛磊;许阳明;王正;;深度学习研究综述[J];计算机应用研究;2012年08期

相关硕士学位论文 前1条

1 余奇;基于FPGA的深度学习加速器设计与实现[D];中国科学技术大学;2016年



本文编号:2767422

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/dianzigongchenglunwen/2767422.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c3e2e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com