深度学习模型的高效训练算法研究
本文关键词:深度学习模型的高效训练算法研究 出处:《中国科学技术大学》2016年博士论文 论文类型:学位论文
更多相关文章: 深度学习 样本分离边距 最小分类误差 上下文敏感区块 并行训练可扩展训练 变方向乘子法 逐块模型更新滤波 深度神经网络 长短时记忆元 连接时序分类
【摘要】:近年来,深度学习技术被成功应用于语音识别、手写识别、计算机视觉、自然语言处理等领域,取得了显著成果。随着深度学习模型结构日趋复杂,训练数据不断增加,如何实现模型的高效训练,成为亟待解决的问题,当下计算技术,特别是高性能计算(HPC)和图形处理单元(GPU)技术的发展使得我们可以利用的计算资源越来越多,这为该问题的解决提供了良好的契机。本文围绕整流线性单元(ReLU)深度神经网络(DNN)的新训练准则,深度双向长短时记忆元(DBLSTM)递归神经网络(RNN)的快速训练以及深度学习模型的可扩展训练等三个方面对该问题进行了研究,并有所创新。首先,针对用于分类问题的ReLU-DNN,本文提出用基于样本分离边距(SSM)的最小分类误差(MCE)准则替代传统的交叉熵(CE)准则对模型进行训练。对于给定的训练样本,如果忽略ReLU-DNN中输出为0的隐层节点,该网络可被视作线性分类器,SSM-MCE作为适用于线性分类器的训练准则,其损失函数直接与分类错误率相关,在最小化损失函数的同时,可以增大SSM,改善模型在测试集上的泛化能力。实验结果表明,SSM-MCE在中小规模的网络上可以取得优于CE的结果。其次,本文针对DBLSTM训练缓慢,解码延迟高的问题,提出了基于上下文敏感区块(CSC)的时域后传(BPTT)训练算法及其相应的解码算法。该算法将长序列的DBLSTM建模的问题转化成短CSC的建模,提高了模型训练的并行度,加快了训练速度,降低了解码延迟,为DBLSTM的实时应用奠定了基础。实验结果表明,在大词汇量连续语音识别(LVCSR)任务上,该方法取得了与传统方法相同的识别效果,而训练速度加快了3.4倍,解码延迟大大降低。再次,为了利用大规模数据对深度学习模型进行并行训练,我们提出了增量块训练(IBT)框架下的变方向乘子(ADMM)算法。作为一种数据并行算法,基于ADMM的IBT算法将无约束的深度学习模型训练问题转化成全局一致约束下的优化问题进行求解。我们在HPC集群上对其进行了实现,实验结果表明,在1,860小时的LVCSR的DNN训练任务上,该算法取得了与模型平均(MA)算法大致相同的结果,且实现了训练的线性加速。最后,针对MA并行训练算法随并行机器增多,模型性能显著下降的问题,本文将全局模型的更新看作随机优化过程,提出了逐块模型更新滤波(BMUF)算法。该算法使用块冲量(BM)技术,补偿了MA算法中取平均操作带来的负面作用。在1,860小时LVCSR的神经网络训练任务上,本算法在多达64块卡的DNN CE训练和32块卡的带投影层DBLSTM (DBLSTMP) CE训练上均实现了近乎线性加速,在一百万行手写识别的DBLSTM训练任务上,使用32块卡实现了DBLSTM连接时序分类(CTC)训练的28倍加速,这些并行训练得到的模型与单机训练得到的相比,性能基本没有下降,有些情况下甚至更好。
[Abstract]:In recent years , advanced learning techniques have been successfully applied to speech recognition , handwriting recognition , computer vision , natural language processing , etc . Compared with single - machine training , these parallel training models have substantially no degradation in performance , and in some cases even better .
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP181
【相似文献】
相关期刊论文 前10条
1 王学雷,邵惠鹤,李亚芬;一种径向基函数神经网络在线训练算法及其在非线性控制中的应用[J];信息与控制;2001年03期
2 朱庆保;多层神经网络自适应控制训练算法及仿真实验[J];计算机工程;2000年12期
3 王新民;王勤;姚天任;;基于混合因子分析隐马尔科夫模型的训练算法[J];系统仿真学报;2008年15期
4 雷晓义;曹柳林;余晋;;回声状态网络的递推训练算法[J];北京化工大学学报(自然科学版);2013年02期
5 白亮,老松杨,胡艳丽;支持向量机训练算法比较研究[J];计算机工程与应用;2005年17期
6 王新民;一种改进的隐马尔可夫模型训练算法[J];孝感学院学报;2004年03期
7 乔士东;沈振康;;网络群负相关训练算法的等价形式[J];信号处理;2006年04期
8 汪辉,皮道映,孙优贤;支持向量机在线训练算法及其应用[J];浙江大学学报(工学版);2004年12期
9 马海兴;;支持向量机训练算法研究[J];福建电脑;2007年10期
10 王书舟;伞冶;;支持向量机的训练算法综述[J];智能系统学报;2008年06期
相关会议论文 前4条
1 林关成;李亚安;李国辉;;支持向量回归的连续过松弛训练算法研究[A];2010’中国西部声学学术交流会论文集[C];2010年
2 ;增量支持向量机的动态训练算法研究(英文)[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 邢建春;王荣浩;杨启亮;向峥嵘;卢居亮;;基于改进的加权最小二乘支持向量机在线训练算法研究[A];第二十九届中国控制会议论文集[C];2010年
4 马宗强;黄泰翼;;基于一种改进的TDNN的汉语全音节的识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
相关博士学位论文 前2条
1 陈凯;深度学习模型的高效训练算法研究[D];中国科学技术大学;2016年
2 汪辉;增量型支持向量机回归训练算法及在控制中的应用[D];浙江大学;2006年
相关硕士学位论文 前9条
1 车四方;前馈神经网络的混合训练算法及其离群鲁棒回归问题研究[D];中国计量学院;2015年
2 兰霞;半监督协同训练算法的研究[D];四川师范大学;2011年
3 袁凯;多视角协同训练算法研究[D];西安电子科技大学;2013年
4 兰光华;支持向量机训练算法实现及其改进[D];南京理工大学;2005年
5 张莹;支持向量机加速训练算法研究[D];河北大学;2010年
6 刘闪电;大规模SVM训练算法的研究[D];南京航空航天大学;2010年
7 张^,
本文编号:1400200
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1400200.html