卷积神经网络存储加速优化关键技术研究

发布时间:2021-10-20 07:23
  当前,深度学习技术已经深入到工业、服务、医疗、军事等各个领域。人工智能算法在某些领域已经能够比人类工作的更加出色。因此深度学习技术越来越成为学术界和产业界的研究热点。而优化现有的深度学习算法,充分发挥当前硬件的全部性能是算法能否稳定成熟应用于实际生活的关键。因此,本文对卷积神经网中的存储和计算加速优化展开研究,从多个角度分析了卷积神经网的网络和计算特性,并针对几种具有代表性的卷积神经网的存储和计算加速问题展开分析、求解和验证。本文的创新点主要包括:·研究分析了基于分块矩阵分解的卷积神经网GPU显存优化方法(第二章)我们提出了三种分块的GPU显存优化算法,即分块LU分解算法,分块Cholesky分解算法和分块异构CPU-GPU算法。我们的工作获得了以下几个方面结果:首先,这三种算法首先解决了传统的卷积极限学习机ELM-LRF因为受GPU设备上的全局内存大小限制,无法解决大规模的Moore-Penrose矩阵求逆问题(MPMI)这一挑战。其次,根据在ELM-LRF模型中矩阵特征(当H’H矩阵为正定时)加速MPMI而提出了一种有效的分块Cholesky分解算法。实验结果表明分块Cholesk... 

【文章来源】:国防科技大学湖南省 211工程院校 985工程院校

【文章页数】:118 页

【学位级别】:博士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景及意义
        1.1.1 卷积神经网络
        1.1.2 研究依据
        1.1.3 课题来源
    1.2 研究现状
        1.2.1 卷积神经网中GPU显存优化研究现状
        1.2.2 卷积神经网中GPU计算加速优化研究现状
    1.3 研究内容和创新点
        1.3.1 基于分块矩阵分解的卷积神经网GPU显存优化方法
        1.3.2 大规模卷积神经网虚拟混合存储算法
        1.3.3 基于图像合并的高速卷积神经网GPU加速算法
        1.3.4 用于快速人脸检测的全GPU实现的批量多任务级联卷积网络
    1.4 研究经历
    1.5 论文组织
第二章 基于分块矩阵分解的卷积神经网GPU显存优化方法
    2.1 问题提出
    2.2 极限学习机基础理论
        2.2.1 极限学习机
        2.2.2 基于局部感受野的卷积极限学习机
    2.3 大规模ELM方案
        2.3.1 分块LU分解MPMI算法
        2.3.2 分块Cholesky分解算法
        2.3.3 异构分块CPU-GPU加速算法
    2.4 实验和结果
        2.4.1 数据集和实验环境
        2.4.2 分类准确度
        2.4.3 不同的分块加速GPU算法的性能
    2.5 本章小结
第三章 大规模卷积神经网虚拟混合存储算法
    3.1 问题提出
    3.2 卷积神经网内存管理相关工作
        3.2.1 移动设备上出现的新机遇
        3.2.2 CNN设计中目前最先进的内存管理策略
    3.3 混合显存控制方法
        3.3.1 mmCNN设计
        3.3.2 mmCNN算法
        3.3.3 mmCNN的实现
    3.4 实验和结果
        3.4.1 数据集和实验环境
        3.4.2 GPU内存使用分析
        3.4.3 mmCNN策略结果
        3.4.4 mmCNN的性能
    3.5 本章小结
第四章 基于图像合并的高速卷积神经网GPU加速算法
    4.1 问题提出
    4.2 卷积加速相关工作
        4.2.1 转换矩阵乘算法
        4.2.2 转换FFT算法
    4.3 基于图像合并的GPU高速轻耗显存算法
        4.3.1 系统设计
        4.3.2 高速图像组合算法
        4.3.3 轻耗显存算法
    4.4 实验和结果
        4.4.1 数据集和实验环境
        4.4.2 滑动窗口采样算法的性能评估
        4.4.3 高速图像组合算法实验结果
        4.4.4 轻耗显存算法的性能评估
        4.4.5 参数选择算法
        4.4.6 整体优化的实验结果
    4.5 本章小结
第五章 用于快速人脸检测的全GPU实现批量多任务级联卷积网络
    5.1 问题提出
    5.2 快速人脸检测相关工作
        5.2.1 人脸检测中的CNN网络
        5.2.2 传统MTCNN算法
    5.3 基于全GPU实现的批量多任务级联卷积网络
        5.3.1 GB-CNN的多尺度并行化
        5.3.2 基于全GPU的实现
    5.4 实验和结果
        5.4.1 数据集和实验环境
        5.4.2 多尺度并行化的有效性
        5.4.3 全GPU实现的有效性
        5.4.4 超参数的影响
    5.5 本章小结
第六章 总结与展望
    6.1 研究工作总结
    6.2 课题研究展望
致谢
参考文献
作者在学期间取得的学术成果



本文编号:3446493

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3446493.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7921c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com