RNN-BLSTM声学模型的说话人自适应方法研究
本文选题:语音识别 + 说话人自适应 ; 参考:《中国科学技术大学》2017年硕士论文
【摘要】:说话人自适应技术利用特定说话人提供的语料,让语音识别系统在识别性能上针对该说话人有明显的提升。它可以将说话人无关的识别系统转换成说话人相关的识别系统,从而和说话人相关的声学特征相匹配;也可以将说话人相关的声学特征转换成说话人无关的声学特征,从而和说话人无关的识别系统相匹配。因此,说话人自适应技术是为了让说话人和识别系统尽量匹配。基于双向长短时记忆单元的递归神经网络(recurrent neural network with bidi-rectional Long Short-Term Memory,RNN-BLSTM)声学模型不仅针对语音 的时序进行建模,而且利用一些控制器来控制信息流,从而解决了传统的基于递归神经网络声学模型的梯度爆炸和梯度消失问题。同时,在一些语音标准数据集上基于RNN-BLSTM声学模型的语音识别系统相比于深度神经网络(Deep Neural Networks,DNN)获得了超过10%的性能提升。虽然RNN-BLSTM声学模型在识别性能上相比于DNN有了大幅度的提升,但是依旧不能够解决上述的不匹配问题。因此,在RNN-BLSTM声学模型上进行说话人自适应技术的研究尤为重要。本文主要围绕RNN-BLSTM声学模型上的说话人自适应展开研究。首先,本文将基于说话人编码(speaker code)的说话人自适应方法应用于RNN-BLSTM声学模型,并分析RNN-BLSTM的记忆单元(memory cell)中的不同控制器对说话人自适应的识别性能的影响。与此同时,我们还提出一些启发式的算法来对基于speaker code的方法进行优化和改进,从而进一步地提升识别性能。然后,本文提出了基于深层编码(deep code,d-code)的离线说话人自适应方法,该方法提供了一种解决基于speaker code的说话人自适应方法的二遍解码问题的途径。通过实验对比,该方法在识别性能上与基于speaker code的方法相接近,并且比同样不需要二遍解码的基于鉴别性矢量(identity vector,i-vector)的说话人自适应方法在识别性能上更优,训练过程更加灵活。最后,本文研究基于d-code的在线说话人自适应方法,该方法不需要收集说话人整个句子。它在在线的语音识别过程中逐步进行说话人自适应,并取得了较好的识别效果。
[Abstract]:The speaker adaptive technology makes use of the corpus provided by a specific speaker to improve the recognition performance of the speech recognition system. It can convert the speaker independent recognition system into the speaker related recognition system, which can match the speaker related acoustic feature, and can also convert the speaker related acoustic feature into the speaker independent acoustic feature. Thus matching with the speaker independent recognition system. Therefore, the speaker adaptation technique is to make the speaker and recognition system match as much as possible. Recurrent neural network with bidi-rectional long term memory (RNN-BLSTM) acoustic model based on bidirectional long short term memory unit not only models the speech time series, but also uses some controllers to control the information flow. The problem of gradient explosion and gradient disappearance based on recurrent neural network acoustic model is solved. At the same time, the speech recognition system based on the RNN-BLSTM acoustic model on some speech standard data sets has achieved a performance improvement of more than 10% compared with the deep neural network (Deep Networks / DNNN). Although the recognition performance of RNN-BLSTM acoustic model is much better than that of DNN, it can not solve the mismatch problem mentioned above. Therefore, it is very important to study the speaker adaptive technology on the RNN-BLSTM acoustic model. This paper focuses on the speaker adaptation on the RNN-BLSTM acoustic model. Firstly, the speaker adaptive method based on speaker code is applied to the RNN-BLSTM acoustic model, and the influence of different controllers in the memory cell of RNN-BLSTM on the speaker adaptive recognition performance is analyzed. At the same time, we propose some heuristic algorithms to optimize and improve the method based on speaker code, so as to further improve the performance of recognition. Then, this paper presents an offline speaker adaptation method based on deep codec, which provides a way to solve the second pass decoding problem of speaker adaptive method based on speaker code. The experimental results show that the performance of this method is similar to that of the one based on speaker code, and it is better than the speaker adaptive method based on discriminant vector identity vectori-vector-based which also does not need to be decoded twice, and the training process is more flexible. Finally, this paper studies the online speaker adaptation method based on d-code, which does not need to collect the whole sentence of the speaker. In the process of online speech recognition, speaker adaptation is carried out step by step, and good recognition effect is achieved.
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.34
【相似文献】
相关期刊论文 前10条
1 刘文举,孙兵,钟秋海;基于说话人分类技术的分级说话人识别研究[J];电子学报;2005年07期
2 丁辉;唐振民;钱博;李燕萍;;易扩展小样本环境说话人辨认系统的研究[J];系统仿真学报;2008年10期
3 刘明辉;黄中伟;熊继平;;用于说话人辨识的评分规整[J];计算机工程与应用;2010年12期
4 陈雪芳;杨继臣;;一种三层判决的说话人索引算法[J];计算机工程;2012年02期
5 杨继臣;何俊;李艳雄;;一种基于性别的说话人索引算法[J];计算机工程与科学;2012年06期
6 何致远,胡起秀,徐光yP;两级决策的开集说话人辨认方法[J];清华大学学报(自然科学版);2003年04期
7 殷启新,韩春光,杨鉴;基于掌上电脑录音的说话人辨认[J];云南民族学院学报(自然科学版);2003年04期
8 吕声,尹俊勋;同语种说话人转换的实现[J];移动通信;2004年S3期
9 董明,刘加,刘润生;快速口音自适应的动态说话人选择性训练[J];清华大学学报(自然科学版);2005年07期
10 曹敏;王浩川;;说话人自动识别技术研究[J];中州大学学报;2007年02期
相关会议论文 前10条
1 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
2 金乃高;侯刚;王学辉;李非墨;;基于主动感知的音视频联合说话人跟踪方法[A];2010年通信理论与信号处理学术年会论文集[C];2010年
3 马勇;鲍长春;夏丙寅;;基于辨别性深度信念网络的说话人分割[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
4 白俊梅;张树武;徐波;;广播电视中的目标说话人跟踪技术[A];第八届全国人机语音通讯学术会议论文集[C];2005年
5 索宏彬;刘晓星;;基于高斯混合模型的说话人跟踪系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年
6 罗海风;龙长才;;多话者环境下说话人辨识听觉线索研究[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年
7 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认快速算法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
8 李经伟;;语体转换与角色定位[A];全国语言与符号学研究会第五届研讨会论文摘要集[C];2002年
9 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
10 何磊;方棣棠;吴文虎;;说话人聚类与模型自适应结合的说话人自适应方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
相关重要报纸文章 前3条
1 ;做一名积极的倾听者[N];中国纺织报;2003年
2 唐志强;不听别人说话,也能模仿其口音[N];新华每日电讯;2010年
3 黄惠慧(南京师范大学附属扬子中学);高考听力要求及对策[N];中国教育资讯报;2002年
相关博士学位论文 前10条
1 李洪儒;语句中的说话人形象[D];黑龙江大学;2003年
2 李威;多人会话语音中的说话人角色分析[D];华南理工大学;2015年
3 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
4 郑建炜;基于核方法的说话人辨认模型研究[D];浙江工业大学;2010年
5 吕声;说话人转换方法的研究[D];华南理工大学;2004年
6 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年
7 玄成君;基于语音频率特性抑制音素影响的说话人特征提取[D];天津大学;2014年
8 李燕萍;说话人辨认中的特征参数提取和鲁棒性技术研究[D];南京理工大学;2009年
9 徐利敏;说话人辨认中的特征变换和鲁棒性技术研究[D];南京理工大学;2008年
10 王坚;语音识别中的说话人自适应研究[D];北京邮电大学;2007年
相关硕士学位论文 前10条
1 杨浩;基于广义音素的文本无关说话人认证的研究[D];北京邮电大学;2008年
2 史梦洁;构式“没有比X更Y的(了)”研究[D];上海师范大学;2015年
3 魏君;“说你什么好”的多角度研究[D];河北大学;2015年
4 解冬悦;互动韵律:英语多人冲突性话语中说话人的首音模式研究[D];大连外国语大学;2015年
5 朱韦巍;扬州街上话语气词研究[D];南京林业大学;2015年
6 蒋博;特定目标说话人的语音转换系统设计[D];电子科技大学;2015年
7 王雅丹;汉语反语研究[D];南昌大学;2015年
8 陈雨莺;基于EMD的说话人特征参数提取方法研究[D];湘潭大学;2015年
9 单燕燕;变音环境下鲁棒性说话人辨认关键技术研究[D];南京邮电大学;2015年
10 陈sネ,
本文编号:2036096
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2036096.html