当前位置:主页 > 科技论文 > 计算机论文 >

低功耗高性能的卷积神经网络硬件加速器设计

发布时间:2020-04-10 00:22
【摘要】:卷积神经网络(Convolution neural networks,CNN)因其在图像识别、语音识别和无人驾驶等方面具有的卓越性能而被国内外广泛研究。随着其性能和精度的提升,CNN的层数和计算量显著上升。经过线性整流函数后,CNN含有超过50%的零值数据。零值数据的计算不会改变计算结果,但是它消耗较高的能耗和计算周期。因此,零值数据的非还原压缩方法和压缩数据的复用方法成为目前急需解决的问题。本文以此为研究对象,从以下三个方面开展研究工作:(1)多路径包连接电路提升传输效率;(2)非还原压缩的编译码方法降低功耗和计算周期;(3)编码行复用方法提升数据的利用效果;(4)基于低功耗高性能的CNN硬件加速器的设计。主要工作有:(1)设计多路径包连接电路针对传统包连接电路(Packet connect circuit,PCC)的(X,Y)路由算法导致的多播传输的节点数量少、传输效率低,不能同时实现多种传输方式等情况,以及无法满足CNN每一层传输数据量大、传输方式复杂的要求,本文设计多路径包连接电路提升传输效率。多路径包连接电路采用两条多播输入通道和一条单播输出通道实现数据的输入-计算-输出的相互独立,结合多播和路由接收模块的判断机制实现多种传输方式。实验结果表明,与传统PCC相比,通道建立时间降低60.4%,数据包传输时间提升2.53x。(2)设计非还原压缩的编译码方法针对传统编译码方法在CNN领域中压缩率低,传输和计算时的再还原,以及零值在计算中仍无法实际跳过等情况,本文设计非还原压缩的编译码方法并实现其硬件化设计。编码时,该方法根据卷积计算的特性,对输入数据的每一行进行0/1编码,保留每行有效值个数,提升压缩率;在译码时,该方法根据有效值个数将编码与对应的有效值发送进入计算单元,计算单元根据编码进行移位译码计算,达到跳过零计算的目的,提升计算速度。实验结果表明,总的压缩率达到58.91%,其中,单层最高的压缩率达到48.64%。(3)设计编码行复用方法针对目前尚未有对压缩数据进行数据复用方法的情况,本文提出编码行复用方法。该方法充分挖掘压缩数据的数据量低的优点,利用卷积核在输入特征图向下滑动过程中产生的行数据复用,采用分时复用方式提升编码数据的利用率。实验结果表明,与Eyeriss的固定行复用相比,片外存储的读写次数降低45%。(4)设计低功耗高性能的CNN硬件加速器根据多路径包连接电路、非还原压缩编译码方法、编码行复用方法,本文设计低功耗高性能的CNN硬件加速器,设计多路径包连接电路、编码电路、控制电路、发送电路、计算电路,使用配置链配置每一层卷积的计算参数。实验结果表明,计算速度与Eyeriss相比,加速比为14.8x。
【图文】:

与非,零值,复用方式,数据类型


图 2.3AlexNet 中 0 与非 0 在每一层的分布Fig 2.3 Distribution of zero and non-zero in each layer in AlexNet计算并不会对最终的结果产生影响,因此在整个计算中,含忽略;同时零值会需要额外的存储空间,增加硬件的成本产生额外的周期消耗,,因此零值的优化将会为 CNN 硬件化。用方式据其计算中的数据类型分成三种复用方式:输入复用、输图 2.4 所示。n...psum sumn

低功耗高性能的卷积神经网络硬件加速器设计


Eyeriss结构
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP183;TP332

【相似文献】

相关期刊论文 前10条

1 张启英;刘亚刚;张淑艳;朱娟;;基于FPGA的硬件加速器设计的研究与应用[J];计算机光盘软件与应用;2013年17期

2 王颖;;Achronix发布全球首款Speedcore嵌入式FPGA IP产品[J];中国电子商情(基础电子);2016年11期

3 王继东;张会生;范忠亮;;基于NEDA算法的二维DCT硬件加速器的设计实现[J];微电子学与计算机;2008年05期

4 查羿;潘红兵;;一种负载均衡的LSTM硬件加速器设计[J];南京大学学报(自然科学);2019年05期

5 马宜科;常晓涛;范东睿;刘志勇;;混合体系结构中有状态硬件加速器的优化[J];计算机学报;2011年07期

6 Paul Beckmann;;利用硬件加速器提高处理器的性能[J];今日电子;2008年11期

7 Noam Shendar;;Java软件解决方案是怎样胜过硬件加速器的?[J];集成电路应用;2005年06期

8 沈阳;王倩;王亚男;王磊;;深度学习硬件方案综述[J];广播电视信息;2017年10期

9 黄海峰;;半导体创新传喜讯:Achronix推出eFPGA IP产品[J];通信世界;2016年27期

10 徐向权;王正彦;范延滨;;基于FPGA的一种μC/OS-Ⅱ硬件加速器设计[J];青岛大学学报(工程技术版);2017年04期

相关会议论文 前1条

1 李文杰;姚相同;崔明月;黄凯;;OpenCL在FPGA上的实现和性能分析[A];第十届全国信号和智能信息处理与应用学术会议专刊[C];2016年

相关重要报纸文章 前1条

1 黄汉宾;FPGA(现场可编程门阵列)[N];人民邮电;2017年

相关博士学位论文 前2条

1 谷晓忱;并行蒙特卡罗计算硬件加速器的关键技术研究[D];国防科学技术大学;2010年

2 谷会涛;视频和图像处理中像素匹配运算的加速技术研究[D];国防科学技术大学;2011年

相关硕士学位论文 前10条

1 王刚;基于SOPC的Smith-Waterman算法硬件加速器的设计与实现[D];电子科技大学;2019年

2 张永亮;低功耗高性能的卷积神经网络硬件加速器设计[D];合肥工业大学;2019年

3 于敬巨;高性能硬件加速器的实现[D];合肥工业大学;2017年

4 付志康;Sobel硬件加速器设计[D];北方工业大学;2016年

5 王振;LTE终端加解密硬件加速器的研究与设计[D];西安科技大学;2012年

6 薄一帆;高能效混合浮点FFT硬件加速器架构与VLSI实现研究[D];复旦大学;2014年

7 刘恒;面向多重需求的灵活可配的哈希算法硬件加速器研究[D];浙江大学;2016年

8 桑圣锋;实时操作系统硬件加速器SoC系统的深亚微米ASIC实现[D];山东科技大学;2011年

9 雷雪;通讯终端安全层中加密算法的硬件实现[D];西安电子科技大学;2014年

10 贺献辉;使用UML2.0的可重构多媒体硬件加速器设计与分析[D];上海交通大学;2007年



本文编号:2621477

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2621477.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8ecf4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com