基于查找表的深度卷积神经网络的模型压缩与推断加速
发布时间:2021-05-18 20:13
卷积神经网络(Convolutional Neural Network,CNN)在目标检测、图像分类领域有着广泛的应用,但由于其海量的参数量和计算量限制了在算力匮乏的移动终端上的部署。参数量化(Parameter Quantization)可以有效降低模型存储空间、提升运算速度,是降低CNN计算负载的方式之一。当CNN中乘法的乘数均被量化,所有乘数组合的乘积可在推断前预先计算并存储,原本的乘法操作可替换为在乘积查找表(Lookup Table,LUT)中的查值操作。相比于浮点乘法,基于查找表的乘法具有占用资源少、运算效率高的优点。然而由于模型的不同层级、不同通道之间参数的分布差异较大,此前基于查找表的CNN为维持模型量化后的性能,往往采用较大规模的查找表存储乘积,或者各卷积层独立进行量化,每层采用独立的乘法查找表存储乘积的结果。以上两个方式导致查找表内存占用过大、内存反复重载成本高等问题。为解决上述问题,本文通过引入权重标准化(Weight Standardization)操作使各层分布趋同,从而CNN的不同层次可以共用同一个查找表;同时,本文引入迭代式聚类的参数非均匀量化方式,补偿参...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:71 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景及研究意义
1.2 国内外研究现状
1.2.1 卷积神经网络压缩技术概述
1.2.2 卷积神经网络的硬件级加速技术概述
1.3 主要内容与贡献
1.4 本文的组织结构
第2章 相关理论及技术介绍
2.1 深度卷积神经网络介绍
2.1.1 卷积神经网络的训练与推断
2.1.2 卷积神经网络模型结构
2.1.3 卷积神经网络算力评估
2.2 量化技术基础理论介绍
2.2.1 权重与激活值的量化
2.2.2 量化感知训练
2.3 FPGA及基于HLS的开发技术介绍
2.3.1 现场可编程门阵列(FPGA)介绍
2.3.2 基于HLS进行FPGA开发
第3章 基于查找表的卷积神经网络压缩算法研究
3.1 背景与动机
3.2 基于查找表的卷积神经网络量化压缩算法
3.2.1 量化算法流程
3.2.2 权重标准化
3.2.3 激活值量化
3.2.4 权重聚类以及权重量化
3.3 基于查找表的推断优化
3.4 实验方法与实验结果
3.4.1 实验配置
3.4.2 权重标准化操作的性能对比分析
3.4.3 基于查找表的CNN性能分析
3.4.4 基于查找表的CNN与其他低比特量化网络的性能对比
3.5 本章小结
第4章 基于查找表的神经网络推断在FPGA上的实现
4.1 整体架构设计
4.2 基于FPGA的查找表CNN实现
4.2.1 部署流程
4.2.2 基于查找表的卷积模块设计
4.2.3 池化层的实现
4.2.4 全连接层的实现
4.3 实验方法与实验结果
4.3.1 实验平台介绍
4.3.2 实验网络及参数配置
4.3.3 验证流程
4.3.4 基于查找表的卷积层实现性能分析
4.3.5 硬件架构性能测试
4.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其他成果
致谢
本文编号:3194417
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:71 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景及研究意义
1.2 国内外研究现状
1.2.1 卷积神经网络压缩技术概述
1.2.2 卷积神经网络的硬件级加速技术概述
1.3 主要内容与贡献
1.4 本文的组织结构
第2章 相关理论及技术介绍
2.1 深度卷积神经网络介绍
2.1.1 卷积神经网络的训练与推断
2.1.2 卷积神经网络模型结构
2.1.3 卷积神经网络算力评估
2.2 量化技术基础理论介绍
2.2.1 权重与激活值的量化
2.2.2 量化感知训练
2.3 FPGA及基于HLS的开发技术介绍
2.3.1 现场可编程门阵列(FPGA)介绍
2.3.2 基于HLS进行FPGA开发
第3章 基于查找表的卷积神经网络压缩算法研究
3.1 背景与动机
3.2 基于查找表的卷积神经网络量化压缩算法
3.2.1 量化算法流程
3.2.2 权重标准化
3.2.3 激活值量化
3.2.4 权重聚类以及权重量化
3.3 基于查找表的推断优化
3.4 实验方法与实验结果
3.4.1 实验配置
3.4.2 权重标准化操作的性能对比分析
3.4.3 基于查找表的CNN性能分析
3.4.4 基于查找表的CNN与其他低比特量化网络的性能对比
3.5 本章小结
第4章 基于查找表的神经网络推断在FPGA上的实现
4.1 整体架构设计
4.2 基于FPGA的查找表CNN实现
4.2.1 部署流程
4.2.2 基于查找表的卷积模块设计
4.2.3 池化层的实现
4.2.4 全连接层的实现
4.3 实验方法与实验结果
4.3.1 实验平台介绍
4.3.2 实验网络及参数配置
4.3.3 验证流程
4.3.4 基于查找表的卷积层实现性能分析
4.3.5 硬件架构性能测试
4.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其他成果
致谢
本文编号:3194417
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3194417.html