基于卷积神经网络的内存优化访问与专用处理器优化实现
发布时间:2020-05-06 16:20
【摘要】:深度卷积神经网络(CNNs)已经被广泛的应用在各个领域,由于其特殊的计算过程,使其具有局部感知和权值共享的机制,进而在处理图像任务时具有优异的性能。卷积神经网络在多智能应用上达到了极高的精度,比如图像分类,目标识别,语义识别以及行为识别等。但是随之而来的是计算量和功耗的大幅提升。卷积神经网络的计算量巨大是因为在一个维度比较高的卷积层中,其需要同时处理数以百计的滤波器和通道的数据,这就会导致处理器和存储器之间大量数据的移动。而一个性能优异的卷积神经网络则是由成百上千层的卷积层叠加而成,其数据传输和计算的量极为巨大。虽然可以通过现有的技术,比如CPU中使用的单指令多数据(SIMD)和GPU中的使用的单指令多线程(SIMT)技术来满足卷积神经网络对计算量和吞吐量的需求。但是即使采用了这些并行化技术,卷积神经网络的计算以及由于数据的传输所带来的功耗依然很高,并没有解决计算效率的问题。特别是针对IOT终端计算,要求具有低功耗、实时性、成本低、架构优、框架灵活等特点,显然现有的CPU+GPU的通用计算框架具有高功耗高延时等缺点,所以并不能满足IOT终端计算的需求。为了满足以上这些需求,专用的神经网络芯片应运而生。本文为了解决通用计算框架的这些问题,设计出了一款针对神经网络的专用芯片(ASIC),采用了一种新的可重构的计算框架,并针对这种计算框架提出了一种名为垂直数据流~([41])(Vertical Date Streaming)的新数据流方式,主要研究成果如下:1.针对卷积神经网络计算的特点,提出了一种名为粗粒度可重构神经形态阵列(Coarse-Grained Reconfigurable Neuron Array,CGRNA)计算框架。该计算框架以人工神经处理单元为基本计算单元,通过与之相连的连续的移位寄存器组传输数据,并采用分布式的片上SRAM。该计算框架能够灵活实现各种结构的神经网络,并支持卷积层,全连层,以及池化层等操作。实验表明,该计算框架在很大程度上提高了神经网络的计算效率,特别是针对具有极高维度的卷积层,相比通用的计算框架,计算效率上会有极大的提升。2.针对粗粒度可重构神经形态阵列这种计算框架,提出一种垂直数据流的方式。该方法采用通过改变神经网络特征图的数据在内存中存储的方式,以及以垂直读取的存储方式,提高了特征数据以及权重数据的复用率,从而大大提高卷积神经网络的计算效率,降低了功耗,也降低了芯片内部逻辑控制的复杂度。实验结果表明,本数据流方式降低了卷积神经网络计算功耗以及计算延时,以及芯片的面积,最终降低了芯片成本。3.针对粗粒度可重构神经形态阵列这种计算框架以及垂直数据流的方式,提出了与之相应的专用指令集,使用该指令集可以实现任意由卷积层,全连层,池化层组成的神经网络。并能通过控制计算过程中的数据位宽,激活函数等参数,从而实现灵活可配置的特点。
【图文】:
图 3-7 芯片物理版图GA 仿真实验在 Keras 框架下用 MNIST 手写数字数据集,训练了一个 5 层网络的框架的具体参数如图 3-8 所示。如图 3-8 所示,是训练的结构,其结构主要由 2 层卷积核 2 层池化层组成以及一层数 2.4k,利用 MNIST 数据集训练该网络最后到达 97.96%的识8X128X28X414X14X4 14X14X4 7X7X4conv5X5S=1Maxpooling2x2S=2conv5X5S=1Maxpooling2x2S=2图 3-8 卷积神经网络结构图卷积网络部署到 Opal Kelly 公司 XEM67350 的 FPGA 开发板
图 3-9 XEM67350FPGA 实验板好的 5 层神经网络部署到 FPGA 板上,,得到其功GA 仿真总功耗为 371mw,其中时钟(Clock)的功的功耗为 18mw,嵌入式 ram 块(BRAM)功耗为分功耗最高达到 213mw,可编程 IO 和漏电功耗且 FPGA 板子计算得到的识别精度为 96.95%,基表 3-9 FPGA 资源消耗图hip Power(W) Useds 0.018 3 0.018 15104ls 0.010 18802Ms 0.025 * 0.00 22Ms 0.213 2
【学位授予单位】:桂林电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP183;TP332
本文编号:2651537
【图文】:
图 3-7 芯片物理版图GA 仿真实验在 Keras 框架下用 MNIST 手写数字数据集,训练了一个 5 层网络的框架的具体参数如图 3-8 所示。如图 3-8 所示,是训练的结构,其结构主要由 2 层卷积核 2 层池化层组成以及一层数 2.4k,利用 MNIST 数据集训练该网络最后到达 97.96%的识8X128X28X414X14X4 14X14X4 7X7X4conv5X5S=1Maxpooling2x2S=2conv5X5S=1Maxpooling2x2S=2图 3-8 卷积神经网络结构图卷积网络部署到 Opal Kelly 公司 XEM67350 的 FPGA 开发板
图 3-9 XEM67350FPGA 实验板好的 5 层神经网络部署到 FPGA 板上,,得到其功GA 仿真总功耗为 371mw,其中时钟(Clock)的功的功耗为 18mw,嵌入式 ram 块(BRAM)功耗为分功耗最高达到 213mw,可编程 IO 和漏电功耗且 FPGA 板子计算得到的识别精度为 96.95%,基表 3-9 FPGA 资源消耗图hip Power(W) Useds 0.018 3 0.018 15104ls 0.010 18802Ms 0.025 * 0.00 22Ms 0.213 2
【学位授予单位】:桂林电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP183;TP332
【参考文献】
相关期刊论文 前1条
1 唐云江;;摩尔定律意味着什么?[J];科学世界;2003年02期
本文编号:2651537
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2651537.html