当前位置:主页 > 科技论文 > 电子信息论文 >

基于深度学习算法的智能识别芯片设计与实现

发布时间:2020-04-09 19:06
【摘要】:随着互联网和摩尔定律的发展,数据获取的便捷和硬件计算力的提升使得深度学习算法迅速发展,同时,目标识别技术也由于深度学习算法的深化融入得到巨大的进步。目标识别技术有着丰富的应用场景,有在云端计算的安防监控和互联网的商品识别,也有移动嵌入式设备中的实时识别追踪和地图构建。先进的目标识别算法大多基于深度学习,其计算量巨大,这给资源受限的嵌入式设备带来极大的挑战。考虑到与云端之间的数据安全,嵌入式设备应该具备本地处理目标识别算法的能力。一般的嵌入式设备资源受限且不具备专门的CNN(Convolutional Neural Network,卷积神经网络)加速硬件,不能满足实时本地处理的需求。所以,研究与设计一款基于深度学习算法的智能识别芯片具有重大意义。本文将围绕硬件架构、性能、硬件利用率、功耗、片内外访问量等方面,开展基于深度学习算法的智能识别芯片设计与实现。主要工作有:(1)深入研究与分析CNN的计算特点,设计CNN硬件加速模块和存储架构。本架构支持混合数据复用模式,可以有效减少数据片内外访问量,进而减少系统功耗。CNN硬件加速模块拥有高计算并行度,体现在处理单元矩阵对二维卷积的高效计算。CNN硬件加速模块的寄存器矩阵层结构把卷积层的卷积、批标准化、激活函数和池化层的计算操作合并,除了增强数据复用,还可以加速卷积层与池化层的计算过程。(2)本文提出一个利用上述CNN硬件加速模块构建的识别系统,其中识别算法为YOLOv2-tiny。然后进行系统的定点数测试,并且分析软硬件协同设计,充分发挥不同硬件的串并计算优势。除此之外,本文针对识别系统中的预处理、后处理和视频流等模块给出详尽的硬件方案以及性能分析。(3)除了完成CNN硬件加速模块和存储架构的Verilog电路设计与仿真,本文还给出DC和ICC等EDA工具的专用芯片后端设计过程,分析CNN硬件加速模块的芯片功耗、面积和时序报告信息。(4)本文以YOLOv2-tiny算法作为CNN参考标准,使用Xilinx的FPGA对CNN硬件加速模块和存储系统进行设计和仿真。由FPGA开发软件Vivado的仿真和实现结果得知,本设计在100MHz的频率下,性能可达9.06 GMACs,数据精度为32位和16位定点数,硬件运行功耗为6.525W,同时,本文提出的识别系统对480p格式图片的理论处理速度可达3.63fps。由DC和ICC的时序报告得知,CNN硬件加速模块的芯片频率可以到达100MHz,后端设计后芯片面积为3.5mm×3.5mm,功耗仅为204mW。
【图文】:

算法流程,边界盒


YOLO 是最先进的实时物体识别系统。该项目开源,编程语言为 C 语言,现在发展到第三个版本。2.1.1 YOLOv1 简介YOLOv1 的创新点在于将目标识别转换成边界盒和相关类别概率的回归问题。处理步骤是端到端的,只需要在框架中将图像前向传播一次即可得出边界盒和类别概率。R-CNN 使用区域建议的方法来产生潜在的边界盒,接着边界盒在分类器中运行,然后后处理选取边界盒,消除重复的识别结果,最后根据场景的其他目标重新赋予边界盒分数。与 R-CNN 不同的是,YOLOv1 把目标检测简化成一个回归问题,把传统算法的分级操作合并,取得处理速度的提升。如图 2-1 所示,YOLOv1 识别系统将目标识别分成三部:图像缩放,CNN 和 NMS(Non-Maximum Suppression,非最大值抑制)[33]。系统首先把输入图像缩放成448×448,然后图像在 CNN 中前向传播,最后根据模型的置信分数用 NMS 算法把识别结果筛选出来。

函数,激活函数,广东工业大学,硕士学位论文


广东工业大学硕士学位论文性激活函数和非线性激活函数[37]。如果神经网络只使用线性激活函数数多深,整个网络的信号表达也只能是简单的线性函数。所以为了增络的表达能力,,需要引入非线性激活函数。常用的非线性激活函数有 sReLu 和 leaky ReLU。YOLOv2-tiny 使用的是 leaky ReLU,公式和函数式(2.11)和图 2-6。 ( ) = ( > )
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN402;TP18

【相似文献】

相关期刊论文 前10条

1 葛德明;;基于硬件加速的三维系统设计[J];通信电源技术;2018年04期

2 张灏;;数字信号处理系统的硬件加速设计[J];科学技术创新;2018年31期

3 周一;;浅谈深度学习的硬件加速[J];科学家;2017年16期

4 天涯衰草;;都是浏览器硬件加速惹的祸[J];电脑迷;2013年12期

5 ;无需更新驱动 开启“硬件加速”[J];电脑爱好者;2011年06期

6 俞庆华;;Mentor Graphics宣布推出规模可达15BG的Veloce Strato平台[J];汽车零部件;2017年02期

7 王飞;李钊;尹晓华;雷振江;曹智;范赛龙;;高速数据压缩及加密硬件加速电路研究[J];计算机与数字工程;2020年01期

8 ;盘点Google Chrome8八大新功能[J];计算机与网络;2010年20期

9 徐天亮;王晨旭;王新胜;罗清华;刘志勇;周志权;;海洋观测通信组网安全及其硬件加速研究[J];海洋科学;2018年01期

10 胡力佳;马琪;徐向阳;;数字集成电路设计中的硬件加速验证技术[J];现代电子技术;2007年11期

相关会议论文 前10条

1 张纯;毛菁霞;张如鸿;孔伯虎;吴百锋;彭澄廉;陈泽文;孙晓光;;基于硬件加速的可视化算法[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年

2 陈乃刚;李健;曹芳;;基于FPGA的CNN单机多卡加速算法实现[A];2017电力行业信息化年会论文集[C];2017年

3 韦兴军;卢泽新;;基于TCAM的入侵检测系统硬件加速技术[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年

4 肖永顺;陈志强;张丽;;工业CT断层重建算法的通用计算硬件加速[A];2004年CT和三维成像学术年会论文集[C];2004年

5 周治国;钟一鸣;屈崇;;无人艇的水面图像去雾技术研究与实现[A];第十二届全国信号和智能信息处理与应用学术会议论文集[C];2018年

6 郑尧;肖利民;唐文琦;姚光超;阮利;;一种面向大规模音乐库的音乐推荐方法[A];第十一届全国博士生学术年会——信息技术与安全专题论文集[C];2013年

7 刘世光;陈国军;杨鹏;张加万;孙济洲;;布料上污渍效果的真实感模拟[A];中国计算机图形学进展2008--第七届中国计算机图形学大会论文集[C];2008年

8 王阳;陶华敏;肖山竹;邓秋群;;基于流水技术的三角矩阵求逆硬件加速技术研究[A];第十九届计算机工程与工艺年会暨第五届微处理器技术论坛论文集[C];2015年

9 王强;邹丹;郭松;姜晶菲;;基于FPGA的宽度优先搜索硬件加速方法研究[A];第十七届计算机工程与工艺年会暨第三届微处理器技术论坛论文集(下册)[C];2013年

10 李欣瑶;刘飞阳;李鹏;;嵌入式智能计算加速技术综述[A];2019年(第四届)中国航空科学技术大会论文集[C];2019年

相关重要报纸文章 前10条

1 记者 刘斯文;破局在线教育 智能硬件加速跑[N];北京商报;2019年

2 山西 王强;被忽视的“硬件加速”[N];电脑报;2003年

3 辽宁 耿呈刚;关于PowerDVD硬件加速[N];电脑报;2004年

4 米笑;丰富的防火墙和防攻击,多种VPN业务,硬件加速的IPsec和SSL等技术[N];中国计算机报;2004年

5 李刚;硬件加速也惹祸[N];中国电脑教育报;2004年

6 一片枫叶;PureVideo HD硬件加速我也行[N];电脑报;2008年

7 ;看PDF文档也玩3D硬件加速[N];中国电脑教育报;2007年

8 朱亦枫 北京;Altera为NiosⅡ处理器系统提供新C语言至硬件加速工具[N];电子资讯时报;2006年

9 周童;免费的硬件加速渲染器[N];计算机世界;2008年

10 Adaptec公司亚太区技术指导 叶文逊;重管理 要增值[N];中国计算机报;2004年

相关博士学位论文 前10条

1 乔寓然;深度学习算法硬件加速关键技术研究[D];国防科技大学;2017年

2 王锐;电源网格快速建模与EDA工具的硬件加速技术研究[D];合肥工业大学;2006年

3 吴安;现场影像增强中的硬件加速机制研究[D];中国科学技术大学;2017年

4 李韬;粗粒度数据流网络处理器设计关键技术研究[D];国防科学技术大学;2010年

5 肖永飞;医学数据三维交互可视化方法的研究[D];哈尔滨工业大学;2010年

6 杨超;虚拟战场中电磁环境三维建模与绘制方法研究[D];国防科学技术大学;2010年

7 刘钧石;基于近似计算的断层图三维迭代重建与图像特征检测的研究[D];浙江大学;2015年

8 唐永鹤;基于序列图像的空间非合作目标三维重建关键技术研究[D];国防科学技术大学;2012年

9 陈鹏;虚拟战场环境中雷达作用范围表现技术研究[D];国防科学技术大学;2007年

10 王圣;高速网络TCP加速关键技术研究[D];国防科学技术大学;2007年

相关硕士学位论文 前10条

1 曾宇航;基于深度学习算法的智能识别芯片设计与实现[D];广东工业大学;2019年

2 高琛;RNN算法优化及硬件加速关键技术研究[D];战略支援部队信息工程大学;2019年

3 秦亮;面向强化学习的FPGA硬件加速平台的研究[D];电子科技大学;2019年

4 薛帅;专用硬件在云平台上的加速性能分析和比较[D];上海交通大学;2018年

5 唐强;面向网络功能虚拟化的加速关键技术研究[D];北京邮电大学;2019年

6 纪昆;基于多核DSP的深度学习算法硬件加速技术研究[D];国防科学技术大学;2016年

7 景亮亮;基于FPGA和深度学习算法的硬件加速设计与研究[D];成都理工大学;2018年

8 陈瑞;基于Vivado HLS的时域有限差分方法硬件加速研究[D];厦门大学;2017年

9 吴树明;面向高密度计算的众核SoC硬件加速设计技术研究[D];合肥工业大学;2018年

10 陈龙;目标识别的硬件加速算法研究[D];南京航空航天大学;2018年



本文编号:2621147

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/dianzigongchenglunwen/2621147.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a9d0e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com