基于FPGA的深度学习算法加速
发布时间:2022-11-01 22:23
在近些年,深度学习算法有着飞速的发展,其核心为卷积神经网络。卷积神经网络应用及其广泛,在图像识别分类、自然语言处理、情感分析等领域均有应用。神经网络的主要实现方式还是在GPU平台上,各项指标也是在GPU上完成改进的。但是在实际应用中,经常会面临各种低功耗的场景,此时GPU的巨大功耗成为了神经网络算法落地的障碍。神经网络一个很重要的应用领域是目标检测,在目标检测算法中,YOLOV2(You Only Look Once)是一个极具代表性的算法,其结构简单,检测速度非常快。由于在低功耗场景下的特殊需求,神经网络在嵌入式设备上也有很多的应用,但是有传统的嵌入式设备绝大部分是基于ARM的平台,神经网络在ARM上部署时存在的依据巨大的问题就是算力不足的问题,所以基于FPGA的硬件加速平台就应运而生了。FPGA由于其独特的架构,被广泛应用于实时信号处理、图像处理等领域,其并行性也为卷积运算提供了巨大的算力。本文中采用YOLOV2来做为核心算法,先分析了YOLOV2的原理,然后根据其原理来对算法中的参数进行量化,以减少运算和传输的带宽消耗,从而加速算法。本设计中,采用ZYNQ系列的FPGA芯片进行算...
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究的背景及意义
1.2 课题研究的现状
1.3 论文的主要工作和章节安排
第二章 深度学习算法原理及其硬件实现
2.1 深度学习算法的简介
2.2 从线性回归到深度神经网络
2.3 深度学习算法的结构
2.3.1 卷积层
2.3.2 激活函数
2.3.3 Normalization层
2.3.4 Pooling层
2.3.5 全连接层
2.4 典型深度学习网络
2.4.1 AlexNet
2.4.2 VGG16
2.4.3 ResNets
2.4.4 GoogleNet
2.4.5 ZF Net
2.5 深度学习硬件实现
2.5.1 GPU实现
2.5.2 ASIC实现
2.5.3 FPGA实现
2.6 本章小结
第三章 YOLOV2 算法加速研究
3.1 YOLOV2 算法的基本理论
3.1.1 YOLOV2 概述
3.1.2 算法原理
3.1.3 网络结构
3.1.4 网络特点
3.2 网络数据的量化
3.2.1 量化权重数据
3.2.2 量化偏移数据
3.3 硬件架构优化
3.3.1 运算结构优化
3.3.2 缓存优化
3.4 本章小结
第四章 硬件加速实现与结果分析
4.1 FPGA基本结构
4.2 ZCU104 开发平台介绍
4.2.1 ZCU104 硬件平台介绍
4.3 PYNQ开发框架介绍
4.4 HLS加速基本理论
4.4.1 HLS开发流程
4.4.2 HLS开发优势
4.5 加速IP的 HLS实现
4.5.1 层内并行化实现
4.5.2 循环优化实现
4.5.3 数组优化实现
4.6 硬件系统的构建
4.6.1 PL部分实现
4.6.2 软硬件系统实现
4.7 结果分析
4.8 本章小结
第五章 总结与展望
5.1 全文总结
5.2 工作展望
致谢
参考文献
攻读硕士学位期间取得的成果
【参考文献】:
期刊论文
[1]加速云:用FPGA提高AI计算力,用IP库降低开发难度[J]. 单祥茹. 中国电子商情(基础电子). 2018(05)
[2]基于异构多核并行加速的嵌入式神经网络人脸识别方法[J]. 高放,黄樟钦. 计算机科学. 2018(03)
[3]基于FPGA的卷积神经网络Softmax层实现[J]. 李理,应三丛. 现代计算机(专业版). 2017(26)
[4]深度学习的昨天、今天和明天[J]. 余凯,贾磊,陈雨强,徐伟. 计算机研究与发展. 2013(09)
博士论文
[1]基于FPGA的卷积神经网络并行结构研究[D]. 陆志坚.哈尔滨工程大学 2013
硕士论文
[1]基于FPGA的卷积神经网络加速方法研究及实现[D]. 仇越.江南大学 2018
[2]基于Zynq的深度学习图像分类识别系统的设计[D]. 黄伟杰.广东工业大学 2018
[3]基于FPGA平台的深度学习应用研究[D]. 董振兴.西安电子科技大学 2018
[4]基于FPGA的CNN自动代码生成设计与实现[D]. 王江峰.天津工业大学 2018
[5]基于FPGA的卷积神经网络关键技术研究与实现[D]. 钟楠.北京邮电大学 2018
[6]基于HLS的Tiny-yolo卷积神经网络加速研究[D]. 张丽丽.重庆大学 2017
[7]基于FPGA的卷积神经网络手写数字识别系统的实现[D]. 王小雪.北京理工大学 2016
本文编号:3700205
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究的背景及意义
1.2 课题研究的现状
1.3 论文的主要工作和章节安排
第二章 深度学习算法原理及其硬件实现
2.1 深度学习算法的简介
2.2 从线性回归到深度神经网络
2.3 深度学习算法的结构
2.3.1 卷积层
2.3.2 激活函数
2.3.3 Normalization层
2.3.4 Pooling层
2.3.5 全连接层
2.4 典型深度学习网络
2.4.1 AlexNet
2.4.2 VGG16
2.4.3 ResNets
2.4.4 GoogleNet
2.4.5 ZF Net
2.5 深度学习硬件实现
2.5.1 GPU实现
2.5.2 ASIC实现
2.5.3 FPGA实现
2.6 本章小结
第三章 YOLOV2 算法加速研究
3.1 YOLOV2 算法的基本理论
3.1.1 YOLOV2 概述
3.1.2 算法原理
3.1.3 网络结构
3.1.4 网络特点
3.2 网络数据的量化
3.2.1 量化权重数据
3.2.2 量化偏移数据
3.3 硬件架构优化
3.3.1 运算结构优化
3.3.2 缓存优化
3.4 本章小结
第四章 硬件加速实现与结果分析
4.1 FPGA基本结构
4.2 ZCU104 开发平台介绍
4.2.1 ZCU104 硬件平台介绍
4.3 PYNQ开发框架介绍
4.4 HLS加速基本理论
4.4.1 HLS开发流程
4.4.2 HLS开发优势
4.5 加速IP的 HLS实现
4.5.1 层内并行化实现
4.5.2 循环优化实现
4.5.3 数组优化实现
4.6 硬件系统的构建
4.6.1 PL部分实现
4.6.2 软硬件系统实现
4.7 结果分析
4.8 本章小结
第五章 总结与展望
5.1 全文总结
5.2 工作展望
致谢
参考文献
攻读硕士学位期间取得的成果
【参考文献】:
期刊论文
[1]加速云:用FPGA提高AI计算力,用IP库降低开发难度[J]. 单祥茹. 中国电子商情(基础电子). 2018(05)
[2]基于异构多核并行加速的嵌入式神经网络人脸识别方法[J]. 高放,黄樟钦. 计算机科学. 2018(03)
[3]基于FPGA的卷积神经网络Softmax层实现[J]. 李理,应三丛. 现代计算机(专业版). 2017(26)
[4]深度学习的昨天、今天和明天[J]. 余凯,贾磊,陈雨强,徐伟. 计算机研究与发展. 2013(09)
博士论文
[1]基于FPGA的卷积神经网络并行结构研究[D]. 陆志坚.哈尔滨工程大学 2013
硕士论文
[1]基于FPGA的卷积神经网络加速方法研究及实现[D]. 仇越.江南大学 2018
[2]基于Zynq的深度学习图像分类识别系统的设计[D]. 黄伟杰.广东工业大学 2018
[3]基于FPGA平台的深度学习应用研究[D]. 董振兴.西安电子科技大学 2018
[4]基于FPGA的CNN自动代码生成设计与实现[D]. 王江峰.天津工业大学 2018
[5]基于FPGA的卷积神经网络关键技术研究与实现[D]. 钟楠.北京邮电大学 2018
[6]基于HLS的Tiny-yolo卷积神经网络加速研究[D]. 张丽丽.重庆大学 2017
[7]基于FPGA的卷积神经网络手写数字识别系统的实现[D]. 王小雪.北京理工大学 2016
本文编号:3700205
本文链接:https://www.wllwen.com/kejilunwen/dianzigongchenglunwen/3700205.html