深度神经网络在中文语音识别系统中的实现
发布时间:2017-08-24 01:02
本文关键词:深度神经网络在中文语音识别系统中的实现
更多相关文章: 语音识别 隐马尔科夫模型 深度神经网络 声学特征
【摘要】:GMM-HMM声学模型在语音识别技术中取得了巨大的成功,但随着语音数据量的增加,数据的复杂性也越来越大,训练时间也越来越长。同时,由于高斯混合模型(Gaussian Mixture Model,简称GMM)是一个浅层模型,在复杂数据上的构建模型能力明显存在着不足,需要找到一种对数据建模能力更强的声学建模方法,而深度神经网络在声学模型建模上就具备了这种能力。此外,在特征提取方面,梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,简称MFCC)是一种在语音识别过程广泛使用的特征,但由于其计算时进行了去相关或者降维处理,势必造成部分信息的丢失。所以,本文还实验了对数域的Mel滤波器的输出为声学特征,即Filter-bank特征(简称Fbank), Fbank特征包含有更多的语音信息可用于之后的训练。 本文完成了一个中文深度神经网络模型语音识别系统,主要工作包括: (1)搭建Kaldi语音识别系统开发平台,编译源代码,配置运行环境,安装CUDA并行计算架构,使用GPU加速深度神经网络训练过程; (2)在中文DNN语音识别系统开发平台上训练单音子模型,并在此模型上优化训练三音子模型,以三音子模型为基础训练和测试中文深度神经网络模型识别性能; (3)进行声学特征实验,对分别使用MFCC特征和Fbank特征的DNN模型进行训练解码;对滤波器组加密处理,提取不同维度的Fbank特征,用于训练DNN模型;滤波器组相同的情况下,增加Fbank特征帧数,用于训练DNN模型。 实验结果显示:DNN模型在有限语音训练数据条件下的词错率WER (Word Error Rate)与传统GMM模型相比有12.05%的绝对降低(28.02%降至15.97%)以及43%的相对降低;采用Fbank特征与MFCC特征的DNN模型的词错率WER相比有0.86%的绝对降低(15.97%降至15.11%)以及5.38%的相对降低;Fbank特征进行滤波器组加密处理训练DNN模型的词错率WER的最好结果为14.87%;Fbank特征帧数增加训练DNN模型的词错率WER最好结果为14.33%。实验结果表明:深度神经网络模型能有效提升中文语音识别率;Fbank特征与MFCC特征相比更适合深度神经网络模型的训练;在一定范围内对Fbank特征进行滤波器组加密处理能够提升中文语音识别率;保证Fbank特征滤波器组相同的情况下,在一定范围内帧数增加可以提升中文语音识别率。
【关键词】:语音识别 隐马尔科夫模型 深度神经网络 声学特征
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.34;TP183
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-11
- 1 引言11-16
- 1.1 研究背景与意义11
- 1.2 国内外研究现状11-13
- 1.3 论文主要研究问题及内容13-14
- 1.3.1 研究问题13-14
- 1.3.2 研究内容14
- 1.4 论文结构14-16
- 2 语音识别基本原理16-25
- 2.1 语音识别基础理论16-17
- 2.2 声学模型17-19
- 2.2.1 隐马尔科夫模型17-19
- 2.2.2 高斯混合模型19
- 2.3 声学解码19-20
- 2.4 声学特征20-24
- 2.4.1 特征分类21-22
- 2.4.2 特征处理22-24
- 2.5 本章总结24-25
- 3 深度学习模型25-37
- 3.1 深度学习背景25-27
- 3.1.1 深度模型和浅层模型26-27
- 3.1.2 深度学习的训练过程27
- 3.2 深度学习模型分类及方法27-32
- 3.2.1 自动编码器27-28
- 3.2.2 卷积神经网络28-29
- 3.2.3 递归神经网络29
- 3.2.4 深度信念网络29-32
- 3.3 深度神经网络训练加速32-33
- 3.3.1 GPU 简介32
- 3.3.2 CUDA 介绍32-33
- 3.4 深度神经网络在声学模型中的应用33-36
- 3.4.1 GMM-HMM DNN-HMM系统33-36
- 3.4.2 特征优化36
- 3.5 本章总结36-37
- 4 Kaldi语音识别系统开发平台37-44
- 4.1 系统基本结构框架37-38
- 4.1.1 外部库38
- 4.2 系统安装38-41
- 4.2.1 安装前配置38-39
- 4.2.2 Kaldi安装步骤39-41
- 4.3 CUDA安装及调试41-43
- 4.3.1 实验训练时间比较43
- 4.4 本章总结43-44
- 5 中文DNN-HMM模型语音识别系统44-60
- 5.1 识别单元设置44-46
- 5.1.1 声母44-45
- 5.1.2 韵母45
- 5.1.3 音调45
- 5.1.4 实验建模单元45-46
- 5.2 实验数据库46-47
- 5.3 数据准备47-53
- 5.3.1 语音数据47-50
- 5.3.2 语言数据50-53
- 5.4 模型训练53-56
- 5.4.1 GMM模型训练53-54
- 5.4.2 DNN模型训练54-55
- 5.4.3 特征提取过程55-56
- 5.4.4 训练及解码脚本56
- 5.5 实验结果及分析56-59
- 5.6 本章总结59-60
- 6 总结与展望60-62
- 6.1 总结60
- 6.2 展望60-62
- 参考文献62-65
- 附录A65-72
- 附录B72-78
- 作者简历及攻读硕士学位期间取得的研究成果78-80
- 学位论文数据集80
【共引文献】
中国期刊全文数据库 前10条
1 陈蕴谷;;基于谱减法和经验模式分解的语音增强[J];安庆师范学院学报(自然科学版);2010年01期
2 冯哲;孙吉贵;张长胜;王岩;;汉语语音合成的研究进展[J];吉林大学学报(信息科学版);2007年02期
3 张余生;夏秀渝;杨莎;;基于神经网络和卡尔曼滤波算法的说话人识别[J];成都信息工程学院学报;2008年04期
4 冀常鹏;高茉;;嘈杂环境下语音信号端点检测方法研究[J];成都信息工程学院学报;2011年03期
5 吴晶;柳洪轶;;基于子带编码的数字音频水印算法研究[J];长春工程学院学报(自然科学版);2008年03期
6 张东;林晖;;基于子带编码的数字音频隐藏算法研究[J];长春工程学院学报(自然科学版);2009年04期
7 赵立业;;数字助听器系统中的回声消除方法[J];传感器与微系统;2009年11期
8 王易川;李智忠;;基于Mel倒谱和BP神经网络的船舶目标分类研究[J];传感器与微系统;2011年06期
9 王宏;郭艳丽;贾新民;;基于HMM的孤立字识别[J];昌吉学院学报;2006年01期
10 王宏;李鑫;高阳;;基于大学生的汉语说话人识别语音库设计[J];昌吉学院学报;2008年06期
,本文编号:728297
本文链接:https://www.wllwen.com/kejilunwen/wltx/728297.html