RNN-DNN语音识别系统研究及其应用
发布时间:2020-07-09 06:24
【摘要】:随着智能可穿戴设备和智能家居市场的升温,语音识别作为其中最重要的人机交互手段,其市场也水涨船高。在非现场说话人认证系统中,良好的语音识别系统能让非现场说话人认证系统的人机交互更加自然。传统连续语音识别技术的主流代表是GMM-HMM,但是其识别率远不能满足商业应用需求。深度神经网络由多层非线性变换网络构成,较多的隐层数量和较多的隐层神经元数,使得深度神经网络能适应语音识别这样的复杂模式分类问题。2011年前后,微软、谷歌等公司开始将深度神经网络应用到语音识别的声学模型中,并取得飞跃性的进步,使其成为现代语音识别的主流技术。随着计算能力的提升,循环神经网络语言模型技术也得到了很好的发展,困惑度已经低于传统N-gram,在机器翻译、对话生成等领域的应用效果也超出了传统的N-gram方案的效果。所以本文将会使用循环神经网络语言模型取代N-gram语言模型,与DNN-HMM声学模型搭配来提升语音识别识别率。为了给本实验室的“远程说话人认证系统”对话控制模块的挑战响应检测提供语音识别支持,本文使用Kaldi深度学习工具箱,搭建一套基于循环神经网络语言模型和深度神经网络声学模型的中文大词汇量连续语音识别系统。本文的主要工作和贡献如下:1、通过理论分析和实验对比选择了声母加带调韵母方案作为中文语音识别系统的识别基元方案;通过理论分析和实验对比选择DNN-HMM作为声学模型;通过理论分析和实验对比选择循环神经网络作为语言模型,并最终证明该方案的优越性。2、将RNN语言模型和DNN声学模型进行结合,取得了比N-gram语言模型搭配GMM-HMM或者DNN-HMM声学模型的语音识别系统更高的识别率。3、搭建基于RNN语言模型和DNN声学模型的中文语音识别系统,并将其与远程说话人认证系统连接运行,取得良好的识别效果。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34
【图文】:
第一章 绪论及意义与人之间互相交流最原始最自然的手段,也是最自然的日 Amazon 发布的 Echo 语音助手音箱、2016 年 5 月 19、2016 年 10 月 Facebook 将发布的 AI 管家都无一例外。穿戴设备和智能家居市场的升温,语音识别作为其中的也越来越大。2016 年,Research and Markets 公司发产业报告》显示,随着智能语音技术在智能产业应用领域的市场规模将近 192 亿美元。据中国工业和信息化,2017 年,中国智能语音产业规模突破 100 亿人民币
图 2-1 语音识别系统词典,是一个描述词与拼音对应关系的文本。发声词典在声学和语言中每个词由哪些子词连接而成。其内容也因语种和采取的语音识别。比如声韵母+声调识别基元方案的中文发声词典可以对 华南 这一:华南 h ua2 n an2;模型,也称语言学模型,主要是描述人类语言习惯,语言中的词语间俗地讲,就是教会机器人类语言有哪些词语组合。在语音识别的数负责计算 P( W ),文字序列本身符合语言习惯的概率。语言模型一一句话的概率拆成每个词语的概率的积。设句子W 是由词语1 2, ,w w 1 2 1 3 1 2 1 2 1( ) ( ) ( | ) ( | , )... ( | , ,..., )n nP W P w P w w P w w w P w w w w 语言模型依靠大量经过分词的中文文本进行训练。训练得到的语言
图 2-2 循环神经网络个很大的问题,就是后来时间节象,因此网络层数一加深就变得 Term Memory,LSTM)的出现存之前时刻的状态。这使得网google 公司 Hasim Sak 等研究员 10.7%的 WER。
本文编号:2747077
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34
【图文】:
第一章 绪论及意义与人之间互相交流最原始最自然的手段,也是最自然的日 Amazon 发布的 Echo 语音助手音箱、2016 年 5 月 19、2016 年 10 月 Facebook 将发布的 AI 管家都无一例外。穿戴设备和智能家居市场的升温,语音识别作为其中的也越来越大。2016 年,Research and Markets 公司发产业报告》显示,随着智能语音技术在智能产业应用领域的市场规模将近 192 亿美元。据中国工业和信息化,2017 年,中国智能语音产业规模突破 100 亿人民币
图 2-1 语音识别系统词典,是一个描述词与拼音对应关系的文本。发声词典在声学和语言中每个词由哪些子词连接而成。其内容也因语种和采取的语音识别。比如声韵母+声调识别基元方案的中文发声词典可以对 华南 这一:华南 h ua2 n an2;模型,也称语言学模型,主要是描述人类语言习惯,语言中的词语间俗地讲,就是教会机器人类语言有哪些词语组合。在语音识别的数负责计算 P( W ),文字序列本身符合语言习惯的概率。语言模型一一句话的概率拆成每个词语的概率的积。设句子W 是由词语1 2, ,w w 1 2 1 3 1 2 1 2 1( ) ( ) ( | ) ( | , )... ( | , ,..., )n nP W P w P w w P w w w P w w w w 语言模型依靠大量经过分词的中文文本进行训练。训练得到的语言
图 2-2 循环神经网络个很大的问题,就是后来时间节象,因此网络层数一加深就变得 Term Memory,LSTM)的出现存之前时刻的状态。这使得网google 公司 Hasim Sak 等研究员 10.7%的 WER。
【参考文献】
相关期刊论文 前5条
1 余凯;贾磊;陈雨强;徐伟;;深度学习的昨天、今天和明天[J];计算机研究与发展;2013年09期
2 王志锋;贺前华;张雪源;罗海宇;苏卓生;;基于信道模式噪声的录音回放攻击检测[J];华南理工大学学报(自然科学版);2011年10期
3 金红;蒋存波;陈小琴;;基于有限状态自动机原理的孔中心定位程序[J];计算机工程与应用;2007年04期
4 乔春雷,吴及,王作英;在汉语语音识别中应用声调信息的研究[J];计算机工程与应用;2002年12期
5 吴应良,韦岗,李海洲;基于字统计语言模型的汉语语音识别研究[J];计算机应用研究;2000年05期
相关博士学位论文 前1条
1 张仕良;基于深度神经网络的语音识别模型研究[D];中国科学技术大学;2017年
相关硕士学位论文 前6条
1 叶卓贤;一种基于用户注册信息的人机对话控制方法及系统实现[D];华南理工大学;2017年
2 张德良;深度神经网络在中文语音识别系统中的实现[D];北京交通大学;2015年
3 张洁凯;远程说话人认证系统的设计与实现[D];华南理工大学;2015年
4 梁静;基于深度学习的语音识别研究[D];北京邮电大学;2014年
5 陈硕;深度学习神经网络在语音识别中的应用研究[D];华南理工大学;2013年
6 邹荣;大词汇量连续语音识别系统中统计语言模型的研究[D];北京邮电大学;2006年
本文编号:2747077
本文链接:https://www.wllwen.com/kejilunwen/wltx/2747077.html