基于卷积神经网络的硬件加速器设计及实现研究
发布时间:2020-06-03 16:44
【摘要】:神经网络在机器学习和认知科学领域是一种模仿生物神经网络的结构和功能的数学或计算模型,用于对函数进行估计或近似。至今已有若干种深度神经网络,如卷积神经网络(CNN)、循环神经网络(RNN),应用在计算机视觉、自然语言处理、语音识别与生物信息学等领域并获取了很好的效果,特别是卷积神经网络可以在目标识别、检测和场景理解等任务上达到前所未有的精度。从2012年提出的AlexNet(8层网络)到2015年提出的ResNet(多达152层网络),神经网络的计算复杂度不断提升,远高于传统方法,对计算硬件带来更高要求。针对当前终端应用场景下神经网络硬件计算存在的计算量大、带宽要求高、能耗高等问题,为了进一步提高深度神经网络的能效,提高吞吐量、降低功耗,本文从算法和结构上对基于卷积神经网络的硬件加速器ASIC(专用集成电路)设计及实现进行了深入的分析和研究。在提高性能的基础上,通过优化电路结构,控制电路的面积和功耗,达到提高总体的能效等指标。本文的具体研究内容分为以下几个方面:(1)首先从神经网络的基本单元——神经元入手,以PCNN(脉冲耦合神经网络)作为数字化实现神经网络的案例,研究基于PCNN模型的神经单元硬件建模,探索神经网络的构成和机制。针对图像处理嵌入式系统高性能和低功耗的需求,提出了一种基于两级PCNN算法的图像分割应用的VLSI(超大规模集成电路)实现。该算法中第一阶段是基于简化的PCNN模型以获得区域的种子,第二阶段种子扩张具有相似灰度级别的像素点,实现区域的生长。在这个过程中,PCNN的参数可以自适应调整,以克服参数设置的限制。在硬件实现中,两级网络以流水线的形式进行划分,运用了乒乓存储技术,用寄存器阵列以缓冲实时图像数据的传输。实验结果表明,处理速率可以达到每秒4.0×10~8次神经元迭代的高吞吐量,比其他文献提升了11%。(2)接下来以CNN算法作为切入点,研究基于AlexNet卷积神经网络的硬件加速器ASIC设计。根据AlexNet的运算特点,设计了3×3卷积运算单元、片上缓冲存储结构,优化的并行处理数据流,以及整体的粗粒度空间体系架构,通过减少从片外DRAM中访问数据,从而降低功耗,提高总体能效。这一架构的16个3×3卷积运算单元(PE)通过利用本地数据重用,实现了500 MHz下峰值性能144 GOPS。对AlexNet的卷积层处理达到99.2帧/秒,在500 MHz、1.0 V下工作时功耗为264 mW。与同类文献相比,本文工作实现了3倍的能量效率和3.5倍的面积效率。(3)在前面两部分的基础上,针对VGG、GoogLeNet、ResNet等其他主流的CNN神经网络模型的共性加以归纳,设计更为通用、应用范围更广的硬件加速处理器ASIC电路。提出了一个具有24个3×3卷积运算单元阵列的高性能粗粒度空间架构,通过数据寄存器组的数据流设计实现数值有规律的移动,传递到PE中进行计算。针对不同运算或不同大小卷积的情况,由指令发射单元控制各模块协同工作,增强了灵活性和可配置性。此架构的主要优点是每个PE的内部优化了面积,PE的数量便于在进行3×3、5×5、7×7卷积时提高计算效率,以及片上临时存储单元和数据流的设计减少了缓冲区中数据存储的冗余。在650 MHz、1.0 V的条件下,达到峰值性能281 GOPS,功耗为859 mW。在以下CNN卷积层的吞吐量为:AlexNet上179 fps,GoogLeNet上76.6 fps,ResNet-34上36.7 fps。与同类文献的AlexNet性能相比,本文提出的架构实现了1.7倍的能效,1.7倍至4.5倍的面积效率以及16.4%至23.7%的计算效率提升。本文的研究及粗粒度运算单元的硬件结构对于提高卷积神经网络加速器的吞吐量和计算效率具有重要的指导意义。设计完成的几种神经网络加速器硬件电路可以针对不同的应用场景,达到实时处理的性能,具有重要的应用价值和广阔的应用前景。
【图文】:
图...输入特征
图 2-7 卷积窗口内并行运算iagram of parallel computation with征图的卷积窗口间并行征图的不同位置的多个卷积窗得到的是同一输出特征图中不图 2-8 卷积窗口间并行运算Diagram of parallel computation acro征图间并行征图的单个卷积窗口与不同组个输出特征图中同一位置的结
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP332;TP183
本文编号:2695106
【图文】:
图...输入特征
图 2-7 卷积窗口内并行运算iagram of parallel computation with征图的卷积窗口间并行征图的不同位置的多个卷积窗得到的是同一输出特征图中不图 2-8 卷积窗口间并行运算Diagram of parallel computation acro征图间并行征图的单个卷积窗口与不同组个输出特征图中同一位置的结
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP332;TP183
【参考文献】
相关期刊论文 前1条
1 严春满;郭宝龙;马义德;张旭;;一种新的基于双层PCNN的自适应图像分割算法[J];光电子.激光;2011年07期
,本文编号:2695106
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2695106.html