基于低精度量化的卷积神经网络在FPGA上的加速研究
发布时间:2021-04-15 08:43
随着深度学习理论研究的不断深入和应用技术的不断推广,传统的卷积神经网络在语音识别、图像处理、自然语言处理等领域已经取得了巨大的成功。然而,卷积神经网络越来越大的计算规模和越来越复杂的模型结构已成为其在移动端和嵌入式端部署的瓶颈。最近的研究结果表明,经过量化后的卷积神经网络可大量减小参数规模和计算成本。在保证一定准确度的情况下,网络模型的训练过程权重和隐藏层激活二值量化为+1或者-1,量化的权重和激活值用于计算参数梯度,这样的量化操作使得内存消耗理论上减少为全精度模型的1/32。更重要地,Xnor逻辑运算和popcount位移运算可以替换原来的卷积运算,这样更是极大的减少了运算时耗。结合FPGA可编程、可重构以及低功耗的特点和二值量化的训练方法,通过Vivado HLS高级综合工具在Xilinx PYNQ-Z1轻量级开发板上对基于VGG16改进的网络进行了加速实现。从卷积层、池化层、正则归一化层、全连接层进行了相应的优化,并设计了一个矩阵向量乘法单元,通过控制调整其中的PE数量和SIMD通道数能够使模型达到局部性能最优,并最终获得整体最优性能。通过优化获得了相较于前人更高的数据吞吐量、更...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
激活函数曲线
量化精度下实验结果与对比分析平台及开发流程台验平台采用 Xilinx 公司的合作伙伴迪芝伦(Digilent)在 2016 推出的PYNQ-Z1,如图 3.20 所示。PYNQ 作为一个新的开源框架体现了 Xilinthon 生产力,它类似于全可编程 SoC 开发套件(APSoc, All Program-chip),支持在板上直接使用 Python 语言来进行开发和测试,所以q Socs 上的开发变得容易且高效。-Z1 的产品特点:650MH 双核 Cortex-A9 处理器、8 个 DMA 通道I3 从端口的 DDR3 内存控制器、高带宽外设控制器、低带宽外设控闪存和 microSD 卡以及 Artix-7 系列可编程逻辑[42]。
(b) 船 (d) 滑翔伞图 4.8 检测效果图由图4.8可知,经过低精度量化(W1A5)后的网络模型对小目标的检测效果良好。在实际使用中可以运用在无人机高空作业,并在背景较简单的场景中对单个特定小目标进行检测能达到很好的效果。4.4 本章小结本章结合二值化的量化思路和本文的加速方案实现了一个基于 Squeezenet 结构的目标检测系统。本文将其计算负载分为 9 个部分,并提供了每一部分的性能。本章还引入图像相似度对比算法来减少对视频流的计算负载,达到一定的实时性效果。经过处理之后,本系统达到 31FPS 的处理速度。
【参考文献】:
期刊论文
[1]卷积神经网络研究综述[J]. 李彦冬,郝宗波,雷航. 计算机应用. 2016(09)
[2]基于FPGA和ARM的图像采集系统设计[J]. 钟磊,韩进. 电脑知识与技术. 2012(01)
本文编号:3139010
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
激活函数曲线
量化精度下实验结果与对比分析平台及开发流程台验平台采用 Xilinx 公司的合作伙伴迪芝伦(Digilent)在 2016 推出的PYNQ-Z1,如图 3.20 所示。PYNQ 作为一个新的开源框架体现了 Xilinthon 生产力,它类似于全可编程 SoC 开发套件(APSoc, All Program-chip),支持在板上直接使用 Python 语言来进行开发和测试,所以q Socs 上的开发变得容易且高效。-Z1 的产品特点:650MH 双核 Cortex-A9 处理器、8 个 DMA 通道I3 从端口的 DDR3 内存控制器、高带宽外设控制器、低带宽外设控闪存和 microSD 卡以及 Artix-7 系列可编程逻辑[42]。
(b) 船 (d) 滑翔伞图 4.8 检测效果图由图4.8可知,经过低精度量化(W1A5)后的网络模型对小目标的检测效果良好。在实际使用中可以运用在无人机高空作业,并在背景较简单的场景中对单个特定小目标进行检测能达到很好的效果。4.4 本章小结本章结合二值化的量化思路和本文的加速方案实现了一个基于 Squeezenet 结构的目标检测系统。本文将其计算负载分为 9 个部分,并提供了每一部分的性能。本章还引入图像相似度对比算法来减少对视频流的计算负载,达到一定的实时性效果。经过处理之后,本系统达到 31FPS 的处理速度。
【参考文献】:
期刊论文
[1]卷积神经网络研究综述[J]. 李彦冬,郝宗波,雷航. 计算机应用. 2016(09)
[2]基于FPGA和ARM的图像采集系统设计[J]. 钟磊,韩进. 电脑知识与技术. 2012(01)
本文编号:3139010
本文链接:https://www.wllwen.com/kejilunwen/dianzigongchenglunwen/3139010.html