基于回归神经网络的语音识别抗噪研究
本文关键词:基于回归神经网络的语音识别抗噪研究,由笔耕文化传播整理发布。
【摘要】:随着移动互联网时代的快速发展,语音识别应用变得越来越普及,语音交互由于其便捷性也逐渐被大众所接受。但是语音识别过程中环境噪声以及不同设备的信道多样性制约着自动语音识别系统的大规模应用。近年来,深度神经网络(Deep Neural Network, DNN)被成功应用到自动语音识别系统中,基于大数据训练,DNN相对于传统方法有着更好的鲁棒性,但是DNN在噪声环境下仍面临着识别率差的问题。而且,由于深度神经网络模型的特点,许多传统的抗噪方法很难被直接使用。为此,本文主要做了如下工作:(一)本文在800小时的大规模训练数据下探索不同回归神经网络结构的建模能力,包括输入输出结构,DNN-Autoencoder结构,激活函数选择等,通过实验对比得到最优的神经网络结构。该方法通过DNN强大的非线性建模能力学习噪声语音特征与干净语音特征的映射关系,然后将处理后的带躁语音输入至语音识别系统中进行语音识别从而提高语音识别率。本文的最优网络结构将噪声语音的词错误率从23.8%降低到18.2%,性能相对提升23.5%。(二)本文首次将混合密度网络(Mixture Density Network, MDN)应用到抗噪语音识别。混合密度网络将目标特征拟合为混合高斯分布,通过最大似然函数优化神经网络,实验表明,MDN能够带来相对DNN有5.0%的词错误率下降,相对DNN有更强的拟合能力。(三)本文将回归神经网络应用到了远场语音识别以及频谱扩宽中。远场语音主要为卷积噪声,本文实验表明回归神经网络对远程语音建模能够带来识别性能相对55.5%词错误率下降。同时若将回归神经网络与后端声学模型进行匹配性训练则又能够带来相对4.9%的性能提升。同时本文将回归神经网络应用在频谱扩宽领域中,将8千赫兹语音特征通过回归神经网络映射成16千赫兹语音特征,并对伪16千赫兹特征输入到16千赫兹语音识别系统中进行语音识别,实验表明,该方法可使得8k识别率性能降低在5%以下的可容忍范围内,而训练资源可减少一半。
【关键词】:回归神经网络 语音识别抗噪 混合神经网络 大规模连续语音识别 频谱扩宽
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34;TP183
【目录】:
- 摘要5-6
- ABSTRACT6-12
- 第一章 绪论12-18
- 1.1 研究背景及意义12-13
- 1.2 研究现状13-15
- 1.3 本文的主要工作与创新点15-16
- 1.4 本文的组织结构16-18
- 第二章 语音识别系统综述18-36
- 2.1 语音识别概述18-22
- 2.1.1 语音特征19-20
- 2.1.2 声学模型20-21
- 2.1.3 词典与语言模型21-22
- 2.1.4 解码器22
- 2.2 基于深度神经网络的声学模型22-29
- 2.2.1 深度神经网络23-26
- 2.2.2 CD-DNN-HMM声学模型26-29
- 2.3 鲁棒语音识别29-34
- 2.3.1 特征空间30-32
- 2.3.2 模型空间32-34
- 2.4 本章小结34-36
- 第三章 基于回归神经网络的语音识别抗噪前端36-46
- 3.1 回归神经网络及目标函数36-38
- 3.2 神经网络结构选择38-44
- 3.2.1 实验及结果41-44
- 3.3 本章小结44-46
- 第四章 基于混合密度神经网络的语音抗噪前端46-54
- 4.1 混合密度神经网络46-50
- 4.1.1 目标函数分析49-50
- 4.2 实验及结果50-53
- 4.2.1 实验结果50-53
- 4.3 本章小结53-54
- 第五章 回归神经网络在语音识别领域其他应用54-62
- 5.1 远场语音识别前端54-57
- 5.1.1 实验及结果55-57
- 5.2 基于频谱扩展的语音识别57-59
- 5.2.1 实验及结果58
- 5.2.2 实验结果58-59
- 5.3 本章小结59-62
- 第六章 总结与展望62-64
- 6.1 总结62-63
- 6.2 展望63-64
- 参考文献64-68
- 致谢68
【相似文献】
中国期刊全文数据库 前10条
1 郭远琼;提高语音识别率点滴[J];电脑技术;2000年03期
2 邢文;语音识别[J];个人电脑;2000年02期
3 ;语音识别的真相[J];个人电脑;2001年12期
4 ;语音识别渐入佳境[J];个人电脑;2002年03期
5 ;微软语音识别软件可与人直接对话[J];自动化博览;2003年04期
6 ;语音识别[J];印刷世界;2004年01期
7 杰里米·瓦格斯塔夫;让语音识别软件 解放你的双手[J];农业图书情报学刊;2004年03期
8 韩纪庆,王欢良,李海峰,郑铁然;基于语音识别的发音学习技术[J];电声技术;2004年09期
9 陈孝强;语音识别拟起新潮[J];微电脑世界;2005年07期
10 韩纪庆;张磊;郑铁然;;网络环境下的语音识别方法[J];计算机科学;2005年01期
中国重要会议论文全文数据库 前10条
1 张歆奕;吴今培;张其善;;语音的共性特征及其在语音识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 杜树木;何良华;;一种新的基于段长分布的语音识别模型[A];2009年通信理论与信号处理学术年会论文集[C];2009年
3 李桢;高万林;欧文浩;徐山川;;基于关键词语音识别的农业信息语音服务系统的研究与实现[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
4 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年
5 王承发;赵德彬;金山;苗百利;朱志莹;;语音识别应用中抗噪声干扰方法的初步探讨[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议论文集[C];1992年
7 季宏;刘志文;杜燕玲;黄曾阳;;语音识别中的音字转换[A];第三届全国人机语音通讯学术会议论文集[C];1994年
8 葛余博;杨大利;曾德超;;噪声环境下语音识别的几个问题(一)[A];第三届全国人机语音通讯学术会议论文集[C];1994年
9 朱奇峰;俞铁城;;听觉中的协同现象和其对语音识别影响的探讨[A];第四届全国人机语音通讯学术会议论文集[C];1996年
10 姚磊;黄泰翼;陈景东;;一种高鲁棒性语音识别的通用自适应方法研究[A];第四届全国人机语音通讯学术会议论文集[C];1996年
中国重要报纸全文数据库 前10条
1 黄梦;方案商积极切入语音识别市场[N];电脑商报;2006年
2 闫婷;语音识别 理想与现实的距离[N];计算机世界;2007年
3 刘喜喜;语音识别将把鼠标键盘打入冷宫?[N];中国计算机报;2008年
4 乐天;语音识别:让你的手机更聪明[N];计算机世界;2011年
5 特约作者 王佳彬;语音识别渐入佳境[N];电脑报;2002年
6 雨夏;语音识别重在应用[N];计算机世界;2001年
7 ;语音识别企业应用前景光明[N];计算机世界;2003年
8 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
9 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
10 张彤;语音识别融入统一通信[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 许金普;农产品市场信息采集的语音识别鲁棒性方法研究[D];中国农业科学院;2015年
2 包希日莫;面向蒙古语的语音识别声学建模研究[D];内蒙古大学;2016年
3 吴斌;语音识别中的后处理技术研究[D];北京邮电大学;2008年
4 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
5 孙f,
本文编号:297792
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/297792.html