面向深度学习的FPGA硬件加速平台的研究
发布时间:2023-06-02 02:33
近年,在全球都刮起了人工智能的热潮,人工智能的技术不仅在学术界中被广泛研究,在工业界也被深度开发后大量投入商用,为国民经济带来了巨大的效益。深度学习是人工智能领域中最受关注的一个技术,它是基于人类认知事物时大脑的生物学原理而提出的对大规模的数据进行学习的一套算法模型,在计算机视觉、自然语言处理、语音识别等领域获得了极佳的效果。最早,人们使用CPU来执行深度学习算法,但CPU无法高效地实现包含大量数值计算的深度学习算法。后来,人们开始将GPU设备引入到深度学习中,GPU包含大量的计算核心,很适合加速深度学习算法中的一些并行度很高的模型,比如卷积神经网络。但GPU存在能耗高的缺点,如果被大规模部署,则违背了数据中心绿色节能的发展趋势。再后来,FPGA作为一种新兴的加速设备,依靠它低功耗、可重配置等优点,逐渐引起了大量学者的关注。在此背景下,本文将结合CPU和FPGA特点,把CPU作为控制主机,FPGA作为加速设备,搭建了一个主-从式架构的硬件加速平台。这个平台用于加速深度学习算法中的两个重要的模型,一个是循环神经网络模型,另一个是卷积神经网络模型,前者用于解决时间序列上的模式识别问题,后者...
【文章页数】:89 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究背景与意义
1.2 国内外研究现状与发展趋势
1.3 主要工作及贡献
1.4 论文的研究内容和组织结构
第二章 相关技术基础
2.1 深度学习基础理论
2.1.1 人工神经元模型
2.1.2 神经网络
2.2 FPGA概述
2.3 硬件加速技术简介
2.3.1 GPU加速
2.3.2 FPGA加速
2.3.3 ASIC加速
2.4 本章小结
第三章 基于FPGA的OpenCL编程模型
3.1 OpenCL基础
3.1.1 OpenCL平台模型
3.1.2 OpenCL执行模型
3.1.3 OpenCL存储模型
3.2 基于FPGA的OpenCL编程流程
3.3 基于FPGA的OpenCL编程优化
3.4 本章小结
第四章 循环神经网络加速方案设计
4.1 循环神经网络模型推导
4.2 循环神经网络并行加速方案
4.3 循环神经网络加速系统架构设计
4.4 本章小结
第五章 卷积神经网络加速方案设计
5.1 卷积神经网络基本理论与分析
5.1.1 卷积神经网络基本部件
5.1.2 卷积神经网络模型推导
5.1.2.1 推理阶段
5.1.2.2 训练阶段
5.2 卷积神经网络通用加速系统架构设计
5.3 基于通道的卷积神经网络加速方案
5.4 本章小结
第六章 深度学习算法加速方案实现与结果
6.1 FPGA硬件加速平台介绍
6.1.1 硬件平台介绍
6.1.2 软件平台介绍
6.2 循环神经网络加速方案实验
6.2.1 实验方案
6.2.2 内核程序设计
6.2.2.1 推理阶段内核程序设计
6.2.2.2 训练阶段内核程序设计
6.2.3 循环神经网络加速方案实验结果
6.3 卷积神经网络加速方案实验
6.3.1 实验方案
6.3.2 通用内核程序设计
6.3.2.1 推理阶段内核程序设计
6.3.2.2 训练阶段内核程序设计
6.3.3 卷积神经网络加速方案实验结果
6.4 本章小结
第七章 总结与展望
致谢
参考文献
攻读硕士学位期间取得的成果
本文编号:3827495
【文章页数】:89 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究背景与意义
1.2 国内外研究现状与发展趋势
1.3 主要工作及贡献
1.4 论文的研究内容和组织结构
第二章 相关技术基础
2.1 深度学习基础理论
2.1.1 人工神经元模型
2.1.2 神经网络
2.2 FPGA概述
2.3 硬件加速技术简介
2.3.1 GPU加速
2.3.2 FPGA加速
2.3.3 ASIC加速
2.4 本章小结
第三章 基于FPGA的OpenCL编程模型
3.1 OpenCL基础
3.1.1 OpenCL平台模型
3.1.2 OpenCL执行模型
3.1.3 OpenCL存储模型
3.2 基于FPGA的OpenCL编程流程
3.3 基于FPGA的OpenCL编程优化
3.4 本章小结
第四章 循环神经网络加速方案设计
4.1 循环神经网络模型推导
4.2 循环神经网络并行加速方案
4.3 循环神经网络加速系统架构设计
4.4 本章小结
第五章 卷积神经网络加速方案设计
5.1 卷积神经网络基本理论与分析
5.1.1 卷积神经网络基本部件
5.1.2 卷积神经网络模型推导
5.1.2.1 推理阶段
5.1.2.2 训练阶段
5.2 卷积神经网络通用加速系统架构设计
5.3 基于通道的卷积神经网络加速方案
5.4 本章小结
第六章 深度学习算法加速方案实现与结果
6.1 FPGA硬件加速平台介绍
6.1.1 硬件平台介绍
6.1.2 软件平台介绍
6.2 循环神经网络加速方案实验
6.2.1 实验方案
6.2.2 内核程序设计
6.2.2.1 推理阶段内核程序设计
6.2.2.2 训练阶段内核程序设计
6.2.3 循环神经网络加速方案实验结果
6.3 卷积神经网络加速方案实验
6.3.1 实验方案
6.3.2 通用内核程序设计
6.3.2.1 推理阶段内核程序设计
6.3.2.2 训练阶段内核程序设计
6.3.3 卷积神经网络加速方案实验结果
6.4 本章小结
第七章 总结与展望
致谢
参考文献
攻读硕士学位期间取得的成果
本文编号:3827495
本文链接:https://www.wllwen.com/kejilunwen/dianzigongchenglunwen/3827495.html