一种基于GPU的高性能稀疏卷积神经网络优化
【文章页数】:9 页
【部分图文】:
图1降维展开方式实现卷积运算Figure1Loweringmethodperformsconvolutionoperation
Figure1Loweringmethodperformsconvolutionoperation图1降维展开方式实现卷积运算Table1Descriptionofconvolutionparameters表1卷积参数描述参数描述N三维输入特征矩阵批处理任务的batchsizeM....
图2直接稀疏卷积Figure2Directsparseconvolution
接稀疏卷积去除了输入特征矩阵中的数据重复复制。该算法将卷积核矩阵的规模扩展到输入矩阵的相同大小。对于延展后的卷积核行展开生成向量Wm,其长度为C×H×W。由于有M个卷积核,对每一个卷积核进行延展后得到了M×(C×H×W)的权重矩阵。对于该批次任务下的输入矩阵以行展开的方式形成列向....
图3行压缩存储格式Figure3CSRformat
Figure3CSRformat图3行压缩存储格式的行列指针。相比降维方式,直接稀疏卷积更适合在GPU上实现SCNN。3设计与实现本节介绍本文所提方法的具体实现和优化。由于权重删减后SCNN产生了大量稀疏数据结构,而传统的降维方式并不能保证稀疏矩阵卷积的计算性能,本文采用全新的直....
图4权重延展Figure4Weightstretched
的降维方式并不能保证稀疏矩阵卷积的计算性能,本文采用全新的直接稀疏卷积来替代降维方式,弥补性能损失。除此以外,GPU的体系结构特征需要在实现过程中对线程映射、任务分配以及内存管理进行更多的考虑和优化。3.1概述直接稀疏卷积的实现主要由两部分组成:(1)数据预处理,主要完成对卷积核....
本文编号:3982862
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3982862.html