递归神经网络模型的若干关键问题研究
发布时间:2022-11-07 18:22
大数据时代的到来促进了数据分析方法的创新,基于神经网络的深度学习技术在多个领域取得了突破性的进展。递归神经网络(RNN)在处理连续时间序列的问题中起到了主导地位,被广泛应用于自然语言处理、计算机视觉、语音识别等多个研究领域。然而,RNN在实际应用场景中仍面临着模型结构复杂、训练耗时、计算通信比低、分布式训练实现困难、解码延迟高、长期依赖关系难以学习等诸多问题。本文围绕RNN的高效训练算法、可扩展分布式训练、快速解码算法和长期依赖关系学习等关键问题展开研究,主要研究内容包括以下四个部分。(1)针对RNN训练中存在的数据耦合性高、难以并行化等问题,实现了一种数据解耦的流水线时域反向传播(BPTT)算法。该算法以基于GPU平台的RNN训练为研究对象,对RNN训练中的计算逻辑关系进行梳理,发掘其中可并行化的模块,将RNN训练中的前后向计算流程划分为多个可并行模块,利用多个计算流独立地加载各个模块的计算任务,从而有效地提升了 RNN训练算法在GPU平台上的执行效率。(2)针对现有的RNN分布式训练算法带宽需求高、可扩展性差等问题,设计了一种基于数据并行方式的RNN分布式训练算法。该算法将计算节点...
【文章页数】:110 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 递归神经网络的训练和测试算法
1.2.2 深度学习模型的分布式训练
1.2.3 长期依赖关系的学习
1.3 本文研究内容和主要工作
1.4 本文组织结构
第2章 递归神经网络相关知识
2.1 人工神经网络
2.1.1 网络结构
2.1.2 学习过程
2.1.3 激活函数
2.1.4 参数初始化
2.1.5 参数优化方法
2.2 递归神经网络
2.2.1 发展历史
2.2.2 基本结构
2.2.3 时域后向传播算法
2.3 递归神经网络在统计语言模型中的应用
2.4 递归神经网络在时序分类问题中的应用
2.5 本章小结
第3章 基于流水线并行的递归神经网络训练算法
3.1 GPU编程结构
3.2 递归神经网络训练算法回顾
3.3 递归神经网络训练中的数据解耦合
3.3.1 时域反向传播中的数据依赖关系分析
3.3.2 流水线并行方法
3.4 流水线并行算法的性能分析
3.5 递归神经网络训练算法的GPU实现
3.5.1 基本流程实现
3.5.2 输出层拆分
3.5.3 多流并行
3.5.4 基于并行规约的softmax实现
3.6 实验与分析
3.6.1 实验环境
3.6.2 实验结果与分析
3.7 本章小结
第4章 基于数据并行的递归神经网络分布式训练算法
4.1 数据并行算法
4.1.1 中心化并行方案
4.1.2 去中心化的并行方案
4.2 令牌环并行算法
4.2.1 算法性能分析
4.3 分布式训练中的通信压力
4.3.1 截断梯度下降
4.4 实验与分析
4.4.1 实验数据集
4.4.2 实现细节
4.4.3 实验结果与分析
4.5 本章小结
第5章 递归神经网络的快速解码算法研究
5.1 递归神经网络-连接时序分类序列识别框架
5.1.1 图像预处理
5.1.2 图像特征学习
5.1.3 特征序列建模
5.1.4 序列解码
5.2 递归神经网络的参数重构
5.3 实验和分析
5.3.1 实验数据集
5.3.2 评估标准
5.3.3 实验结果与分析
5.4 本章小结
第6章 针对长期依赖关系的递归神经网络扩展结构
6.1 相关工作
6.2 梯度消失问题
6.3 轻量级门控循环单元(LRU)
6.3.1 LRU模型设计
6.3.2 相关分析及讨论
6.4 实验与分析
6.4.1 加法问题
6.4.2 MNIST手写字母分类
6.5 本章小结
第7章 总结和展望
7.1 本文主要工作
7.2 未来工作展望
参考文献
致谢
在读期间发表的学术论文与取得的研究成果
【参考文献】:
期刊论文
[1]Minimal Gated Unit for Recurrent Neural Networks[J]. Guo-Bing Zhou,Jianxin Wu,Chen-Lin Zhang,Zhi-Hua Zhou. International Journal of Automation and Computing. 2016(03)
[2]一种异步BSP模型及其程序优化技术[J]. 刘方爱,刘志勇,乔香珍. 计算机学报. 2002(04)
本文编号:3704178
【文章页数】:110 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 递归神经网络的训练和测试算法
1.2.2 深度学习模型的分布式训练
1.2.3 长期依赖关系的学习
1.3 本文研究内容和主要工作
1.4 本文组织结构
第2章 递归神经网络相关知识
2.1 人工神经网络
2.1.1 网络结构
2.1.2 学习过程
2.1.3 激活函数
2.1.4 参数初始化
2.1.5 参数优化方法
2.2 递归神经网络
2.2.1 发展历史
2.2.2 基本结构
2.2.3 时域后向传播算法
2.3 递归神经网络在统计语言模型中的应用
2.4 递归神经网络在时序分类问题中的应用
2.5 本章小结
第3章 基于流水线并行的递归神经网络训练算法
3.1 GPU编程结构
3.2 递归神经网络训练算法回顾
3.3 递归神经网络训练中的数据解耦合
3.3.1 时域反向传播中的数据依赖关系分析
3.3.2 流水线并行方法
3.4 流水线并行算法的性能分析
3.5 递归神经网络训练算法的GPU实现
3.5.1 基本流程实现
3.5.2 输出层拆分
3.5.3 多流并行
3.5.4 基于并行规约的softmax实现
3.6 实验与分析
3.6.1 实验环境
3.6.2 实验结果与分析
3.7 本章小结
第4章 基于数据并行的递归神经网络分布式训练算法
4.1 数据并行算法
4.1.1 中心化并行方案
4.1.2 去中心化的并行方案
4.2 令牌环并行算法
4.2.1 算法性能分析
4.3 分布式训练中的通信压力
4.3.1 截断梯度下降
4.4 实验与分析
4.4.1 实验数据集
4.4.2 实现细节
4.4.3 实验结果与分析
4.5 本章小结
第5章 递归神经网络的快速解码算法研究
5.1 递归神经网络-连接时序分类序列识别框架
5.1.1 图像预处理
5.1.2 图像特征学习
5.1.3 特征序列建模
5.1.4 序列解码
5.2 递归神经网络的参数重构
5.3 实验和分析
5.3.1 实验数据集
5.3.2 评估标准
5.3.3 实验结果与分析
5.4 本章小结
第6章 针对长期依赖关系的递归神经网络扩展结构
6.1 相关工作
6.2 梯度消失问题
6.3 轻量级门控循环单元(LRU)
6.3.1 LRU模型设计
6.3.2 相关分析及讨论
6.4 实验与分析
6.4.1 加法问题
6.4.2 MNIST手写字母分类
6.5 本章小结
第7章 总结和展望
7.1 本文主要工作
7.2 未来工作展望
参考文献
致谢
在读期间发表的学术论文与取得的研究成果
【参考文献】:
期刊论文
[1]Minimal Gated Unit for Recurrent Neural Networks[J]. Guo-Bing Zhou,Jianxin Wu,Chen-Lin Zhang,Zhi-Hua Zhou. International Journal of Automation and Computing. 2016(03)
[2]一种异步BSP模型及其程序优化技术[J]. 刘方爱,刘志勇,乔香珍. 计算机学报. 2002(04)
本文编号:3704178
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3704178.html