基于异构处理器的深度卷积神经网络加速系统设计与实现

发布时间：2021-09-18 07:18

　　基于深度卷积神经网络（Deep Convolutional Neural Network,DCNN）的深度学习算法在图像分类、视频分析和语音识别等众多应用中显示出优于传统算法的巨大优势。DCNN的工作原理是对输入网络中的图片,由多个卷积层从输入数据中提取特征,然后经过分类层判断,最终得到输出结果。由于卷积层与全连接层是计算密集型运算,因此DCNN很难在低功耗的系统中实现实时的分类效果。本文基于开放运算语言（Open Computing Language,OpenCL）异构并行计算框架提出了一种针对低成本、低功耗SoC-FPGA的深度卷积神经网络加速系统。本文首先对DCNN的计算复杂度和并行度进行了分析,然后在OpenCL异构并行计算框架下,设计了卷积、池化、局部响应归一化、数据传入与数据传出五个具有特殊数据重用和任务映射方案的加速内核,由AlteraOpenCL扩展管道连接构成一个深度流水线结构,可以执行一系列基本的CNN运算,而无需再将层间数据存储回外部存储器中。这种深度流水结构能显著减少对SoC-FPGA至关重要的内存带宽需求。本文最终的设计是在Cyclone-VSoC-FPGA硬...

【文章来源】：北京交通大学北京市 211工程院校教育部直属院校

【文章页数】：63 页

【学位级别】：硕士

【部分图文】：

图１－２将三维卷积映射成矩阵乘法示意图［１８］??Ｆｉｇｕｒｅ?１－２?Ｓｋｅｔｃｈ?ｍａｐ?ｏｆ?ｍａｐｐｉｎｇ?３Ｄ?ｃｏｎｖｏｌｕｔｉｏｎｓ?ｔｏ?ｍａｔｒｉｘ?ｍｕｌｔｉｐｌｉｃａｔｉｏｎｓ＾１＾??

基本流程图,数据损失

决问题的方法，端到端的方式具有协同增效［２１］的优势，有更大可能获得全局最优??解。??深度卷积神经网络的基本流程图如图２－２所示，对卷积神经网络模型而言，其??输入数据是未经任何人为加工的原始样本形式，后续则是堆叠在输入层上的众多??操作层。这些操作层整体可看作一个复杂的函数，最终损失函数由数据损失??和模型参数的正则化损失共同组成，深度模型的训练则在最终损失驱动下对模型??进行参数更新并将误差反向传播至网络各层。模型的训练过程可以简单抽象为从??原始数据向最终目标的直接拟合，而中间的这些部件正起到了将原始数据映射为??特征随后再映射为样本标记的作用。??正则损失（Ｒｅｇｕｋｒｉｚａｔｉｏｎ?】ｏｓｓ）??＿＿?一?厂丨门ｉ??Ｊ?｜?１?￡?＾?１１?｜?Ｒｒ?Ｖ：?Ｊ?＾?Ｊ?Ｓ?Ｎ?ｉ?Ｉ＿＿．?Ｉ??＿?＇??——，??数据损失（Ｄａｔａ?ｌｏｓｓ）??图２－２深度卷积神经网络的基本流程图??Ｆｉｇｕｒｅ?２－２?Ｔｈｅ?ｂａｓｉｃ?ｆｌｏｗ?ｃｈａｒｔ?ｏｆ?ｄｅｅｐ?ｃｏｎｖｏｌｕｔｉｏｎａｌ?ｎｅｕｒａｌ?ｎｅｔｗｏｒｋｓ??深度卷积神经网络由多个卷积层、归一化、池化和非线性激活函数相互作用。??９??

示意图,计算过程,最大值,示意图

时仅需指定池化类型（ａｖｅｒａｇｅ或ｍａｘ等）、池化操作的核大小（ｋｅｒｎｅｌ?ｓｉｚｅ）和池??化操作的步长（ｓｔｒｉｄｅ）等超参数即可。??下图２－４为ｋｅｒｎｅｌ?ｓｉｚｅ为２?Ｘ?２，?ｓｔｒｉｄｅ为１的最大值池化计算示意图。??ＩＩＩ，—「丨??１?３?５?７?９?＼?１?３?５?７?９?乂?＼??２４６８０?４?２４６８０?４／６６９］??３?１?２?４?７?３?１?２?４７?＾６８７／??８?９?３?４?６?８９?３?４６?９９４７／??６?３?５?２?１?６３５２?１?９９５６＊??３）第一次最大池化计算与得到的特征?ｂ）第十六次最大池化计算与得到的特征??图２－４最大值池化计算过程示意图??Ｆｉｇｕｒｅ?２－４?Ｓｋｅｔｃｈ?ｍａｐ?ｏｆ?ｍａｘｐｏｏｌｉｎｇ?ｏｐｅｒａｔｉｏｎ?ｐｒｏｃｅｓｓ??池化层的引入是仿照人的视觉系统对视觉输入进行降维和抽象的过程。池化??层有如下三种作用：??（１）

【参考文献】：
期刊论文
[1]卷积神经网络及其研究进展[J]. 翟俊海,张素芳,郝璞.  河北大学学报(自然科学版). 2017(06)
[2]基于开源虚拟桌面的嵌入式实验平台[J]. 吴阕,陈云芳.  计算机教育. 2017(09)
[3]分层视觉特征感知在目标识别中的应用[J]. 片兆宇,史天予,袁德鹏,胡玉兰,王栋.  计算机辅助设计与图形学学报. 2017(06)
[4]基于高级综合技术的RS算法实现[J]. 王欢,李斌,张磊.  中国集成电路. 2016(11)
[5]SoC FPGA的视觉算法加速系统设计[J]. 吴良晶,曹云峰,丁萌,庄丽葵.  单片机与嵌入式系统应用. 2016(11)
[6]深度学习:多层神经网络的复兴与变革[J]. 山世光,阚美娜,刘昕,刘梦怡,邬书哲.  科技导报. 2016(14)
[7]改进的超越函数分段线性逼近方法[J]. 田征,杜慧敏,黄小康.  计算机应用. 2016(07)
[8]嵌入式系统节能能力度量模型研究[J]. 罗殊彦,朱怡安,王伟超.  西北工业大学学报. 2016(03)
[9]GPU通用计算软硬件处理架构研究[J]. 谢建春.  航空计算技术. 2013(02)

本文编号：3399720

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3399720.html

上一篇：基于Storm的分布式流数据关联规则挖掘
下一篇：基于数据挖掘的高原常见病藏药组方规律研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|