基于深度学习的大词汇量连续语音识别的研究
发布时间:2020-06-28 02:40
【摘要】:自动语音识别的主要目的是让机器可以“听懂”人们说话的内容,并将语音信号转化为文本信息,能实现人类与机器之间快速、无障碍的交流。近年来,随着深度学习技术的广泛应用,DNN-HMM语音识别架构逐渐取代了传统的GMM-HMM语音识别架构,成为当前大词汇量连续语音识别系统的主流架构。本文以深度学习为基础,从特征提取和声学模型两个方面展开深入研究,具有较高的理论意义和研究价值。首先,阐述了语音识别技术的国内外研究现状,介绍了深度学习理论基础和语音识别关键技术,对基于深度学习的大词汇量连续语音识别系统的整体方案进行了设计。着重分析原始声学特征提取和DNN-HMM声学模型存在的不足之处,明确本论文研究的关键技术是语音特征提取和声学模型优化。其次,针对MFCC、Fbank、瓶颈特征等常用语音特征对语音前后帧相关性信息提取不足导致识别率不高的问题,提出一种基于重叠组套索稀疏深度神经网络的语音瓶颈特征提取改进方法。该方法利用重叠组套索算法对DNN进行改进,并从MFCC声学特征中提取到具有语音相关性信息的语音瓶颈特征。实验结果表明,利用DNN得到的语音瓶颈特征与原始的MFCC相比,语音识别率得到显著提高。然后,为解决DBLSTM中常出现的梯度消失和模型过拟合问题,提出利用Maxout神经元和Dropout正则化算法改进DBLSTM-HMM声学模型。为适应DBLSTM对语音信息每个时间步长的双向依赖性,进一步提出利用CSC-BPTT训练算法训练DBLSTM神经网络。实验结果表明本文改进的DBLSTM-HMM声学模型优于DNN-HMM、RNN-HMM等典型的声学模型,语音识别性能得到较大的提高。最后,利用本文改进的语音特征提取方法和声学模型构建基于DBLSTM-HMM的大词汇量连续语音识别系统,并在THCHS-30中文语料库和自制语料库中进行实验验证和分析。实验结果表明,本文建立的语音识别系统与传统的基于DNN-HMM的语音识别系统相比,WER低7.44%,系统泛化能力更强,语音识别率更高。
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34;TP18
【图文】:
种基于深度神经网络的学习方法,是通过非线性处理的一种算法体系。深度神经网多隐含层神经网络结构,包括:DBN、CN连接的前馈神经网络。下面将详细介绍DN构建瓶颈深度神经网络提供理论依据,另,为第 4 章声学模型研究和实验对比验证网络架构人工神经网络的基础上通过增加隐含层,次网络结构。DNN 模型结构图如图 2.1 所
电大学硕士学位论文 第 2 章 基于深度学习的语音识别理论基础及系统在深度神经网络采用无监督特征学习的方法预训练得到初始值,这样可后期参数调整的时间,而且让大多数参数达到最优值附近,利于参数调文采用 DBN 进行 DNN 网络参数预训练。DBN 是一种概率生成模型,限玻尔兹曼机(Restricted Boltzmann Machines, RBM)网络逐层训练得到[32BN 模型参数作为 DNN 训练模型的初始参数,其过程如图 2.2 所示。
本文编号:2732444
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34;TP18
【图文】:
种基于深度神经网络的学习方法,是通过非线性处理的一种算法体系。深度神经网多隐含层神经网络结构,包括:DBN、CN连接的前馈神经网络。下面将详细介绍DN构建瓶颈深度神经网络提供理论依据,另,为第 4 章声学模型研究和实验对比验证网络架构人工神经网络的基础上通过增加隐含层,次网络结构。DNN 模型结构图如图 2.1 所
电大学硕士学位论文 第 2 章 基于深度学习的语音识别理论基础及系统在深度神经网络采用无监督特征学习的方法预训练得到初始值,这样可后期参数调整的时间,而且让大多数参数达到最优值附近,利于参数调文采用 DBN 进行 DNN 网络参数预训练。DBN 是一种概率生成模型,限玻尔兹曼机(Restricted Boltzmann Machines, RBM)网络逐层训练得到[32BN 模型参数作为 DNN 训练模型的初始参数,其过程如图 2.2 所示。
【参考文献】
相关期刊论文 前1条
1 刘建伟;崔立鹏;罗雄麟;;组稀疏模型及其算法综述[J];电子学报;2015年04期
相关博士学位论文 前4条
1 张仕良;基于深度神经网络的语音识别模型研究[D];中国科学技术大学;2017年
2 薛少飞;DNN-HMM语音识别声学模型的说话人自适应[D];中国科学技术大学;2015年
3 周盼;基于深层神经网络的语音识别声学建模研究[D];中国科学技术大学;2014年
4 罗恒;基于协同过滤视角的受限玻尔兹曼机研究[D];上海交通大学;2011年
相关硕士学位论文 前3条
1 孙颖华;高阶离散隐马尔科夫模型的严格定义及等价性质[D];江苏大学;2016年
2 时雪煜;基于回归神经网络的语音识别抗噪研究[D];中国科学技术大学;2016年
3 张德良;深度神经网络在中文语音识别系统中的实现[D];北京交通大学;2015年
本文编号:2732444
本文链接:https://www.wllwen.com/kejilunwen/wltx/2732444.html