深度学习卷积神经网络VLIW加速器设计与实现
本文选题:卷积神经网络 + 并行计算 ; 参考:《苏州大学》2016年硕士论文
【摘要】:近年来,卷积神经网络(CNN)算法及其在视觉感知领域的应用很大程度上改变了传统的机器视觉框架。但因为CNN算法大量的计算工作负载使其很难在高实时性,嵌入式场合得以广泛应用。最近,有一些国际著名的学术、商业机构推出了其专用的解决方案,用来降低功耗并提高性能,但大量的数据传输与访问仍然是一个棘手的挑战。本文的主要的工作如下:1.整合并优化了CNN卷积层,进行了细粒度的算法并行性分析,提出了Intra Output Feature Map的并行思路;对片上片外存储模型进行分析并为CNN设置了较通用的存储解决方案;2.提出了一种全新的CNN硬件加速器结构,设定了指令集与工作模式,用户可以使用简单的VLIW指令实现多种参数的CNN网络层;3.构建了基于ZYNQ的SOC芯片设计验证平台框架,并对CNN加速器进行验证;4.使用28nm低功耗工艺库实现了CNN加速器ASIC,与其它先进的CNN加速器相比,在实现相近或更好的吞吐量情况下,本文的加速器降低了50%的外部存储访问量,能够在0.303mm2的芯片面积上达到102GOp/s@800MHz的吞吐量,最大功耗仅为68mW.
[Abstract]:In recent years, the convolutional neural network (CNN) algorithm and its applications in the field of visual perception have greatly changed the traditional machine vision framework. However, due to the large computational workload of CNN algorithm, it is difficult to be used in high real time, so it is widely used in embedded environment. Recently, some internationally renowned academic and commercial organizations have launched their own solutions to reduce power consumption and improve performance, but massive data transmission and access is still a tricky challenge. The main work of this paper is as follows: 1. This paper integrates and optimizes the CNN convolution layer, analyzes the parallelism of fine grained algorithm, puts forward the parallel thinking of Intra Output Feature Map, analyzes the on-chip and off-chip storage model and sets up a general storage solution for CNN. A new structure of CNN hardware accelerator is proposed. Instruction set and working mode are set up. User can use simple VLIW instruction to realize CNN network layer with multiple parameters. The framework of SOC chip design and verification platform based on ZYNQ is constructed, and the CNN accelerator is verified. The CNN accelerator is realized by using 28nm low-power process library. Compared with other advanced CNN accelerators, the accelerator in this paper reduces the external storage access by 50% compared with other advanced CNN accelerators in the case of similar or better throughput. It can achieve the throughput of 102GOp/s@800MHz on the chip area of 0.303mm2, and the maximum power consumption is only 68 MW.
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TH824.4;TP183
【相似文献】
相关期刊论文 前10条
1 Sheraz Anjum;陈杰;韩亮;林川;张晓潇;苏叶华;程亚奇;;A scalable and low power VLIW DSP core for embedded system design[J];Journal of Harbin Institute of Technology;2008年02期
2 杨焱;侯朝焕;;VLIW处理器系统级验证平台的设计与实现[J];电子测量与仪器学报;2007年02期
3 伍楠;文梅;张春元;;一种面向分布式寄存器文件的VLIW调度新策略[J];国防科技大学学报;2008年01期
4 周志雄;何虎;张延军;杨旭;孙义和;;用于分簇VLIW结构的二维力量引导簇调度算法[J];清华大学学报(自然科学版);2008年10期
5 朱凯佳,王雷,尹宝林;VLIW上的软件旁路与细粒度并行调度[J];北京航空航天大学学报;2003年10期
6 管茂林;杨乾明;张春元;文梅;;面向能耗有效高性能嵌入式微处理器的VLIW调度[J];国防科技大学学报;2012年06期
7 管茂林;何义;杨乾明;张春元;;基于程序特征分析的流处理器VLIW压缩技术与解压实现[J];国防科技大学学报;2012年01期
8 徐建兵,曲俊华;VLIW中指令级的并行处理分析[J];现代电力;2002年05期
9 王沁;VLIW体系结构微处理器功能验证模型[J];北京科技大学学报;2002年04期
10 杨旭;何虎;孙义和;;Data Dependence Graph Directed Scheduling for Clustered VLIW Architectures[J];Tsinghua Science and Technology;2010年03期
相关重要报纸文章 前1条
1 ;安腾才是英特尔的未来[N];计算机世界;2004年
相关博士学位论文 前3条
1 沈立;动态VLIW体系结构关键技术研究与实现[D];国防科学技术大学;2003年
2 管茂林;面向计算密集型嵌入式应用的VLIW编译优化技术研究[D];国防科学技术大学;2012年
3 李宇飞;高性能、低功耗VLIW结构数字信号处理器(DSP)的研究:模型、算法与工程实践[D];上海交通大学;2007年
相关硕士学位论文 前9条
1 石润彬;深度学习卷积神经网络VLIW加速器设计与实现[D];苏州大学;2016年
2 唐骞;基于FPGA的VLIW微处理器设计实现[D];西南交通大学;2010年
3 王晓东;面向移动通信基带算法的VLIW矢量处理器的设计[D];电子科技大学;2015年
4 陈惠斌;VLIW DSP汇编器与代码生成器的设计与实现[D];国防科学技术大学;2005年
5 管茂林;面向FT64流处理器中高密度计算的VLIW编译优化技术[D];国防科学技术大学;2007年
6 王斌;一个高性能通用VLIW微处理器原型及其存储系统的设计[D];中国人民解放军国防科学技术大学;2002年
7 施自龙;面向全分布式VLIW结构的功能单元互连技术研究[D];国防科学技术大学;2013年
8 罗雯;基于ASIP的参数可选RISC结构汇编器以及VLIW结构汇编器设计[D];西安电子科技大学;2011年
9 丁陈飞;VLIW体系的多簇DSP分簇算法的研究和复数运算的优化[D];中国科学技术大学;2014年
,本文编号:1915903
本文链接:https://www.wllwen.com/kejilunwen/yiqiyibiao/1915903.html