基于深层神经网络的多特征关联声学建模方法
本文选题:语音识别 + 深层神经网络 ; 参考:《计算机研究与发展》2017年05期
【摘要】:针对不同声学特征之间的信息互补性以及声学建模中各任务间的关联性,提出了一种多特征关联的深层神经网络声学建模方法,该方法首先借鉴深层神经网络(deep neural network,DNN)多模态以及多任务学习思想,通过共享DNN部分隐含层为不同特征声学模型间建立关联,从而挖掘不同学习任务间隐含的共同解释性因素,实现知识迁移以及性能的相互促进;其次利用低秩矩阵分解方法减少模型估计参数的数量,加快模型训练速度,并对不同特征的识别结果采用ROVER(recognizer output voting error reduction)融合算法进行融合,进一步提高系统识别性能.基于TIMIT的连续语音识别实验表明,采用关联声学建模方法,不同特征的识别性能均要优于独立建模时的识别性能.在音素错误率(phone error rates,PER)指标上,关联声学建模下的ROVER融合结果要比独立建模下的ROVER融合结果相对降低约4.6%.
[Abstract]:Aiming at the complementarity of information among different acoustic features and the correlation among different tasks in acoustic modeling, a deep neural network acoustic modeling method based on multi-feature correlation is proposed. This method first uses the deep neural network (DNN) multi-modal and multi-task learning ideas for reference. By sharing some hidden layers of DNN to establish the association between different characteristic acoustic models, the common explanatory factors among different learning tasks can be mined. Secondly, the method of low rank matrix decomposition is used to reduce the number of parameters of the model estimation, accelerate the training speed of the model, and adopt ROVER(recognizer output voting error reduction) fusion algorithm to fuse the recognition results of different features. Further improve the system recognition performance. The experiments of continuous speech recognition based on TIMIT show that the recognition performance of different features is better than that of independent modeling. In terms of phoneme error rate and phone error rate per, the result of ROVER fusion based on associative acoustic modeling is about 4.6 lower than that of ROVER fusion under independent modeling.
【作者单位】: 解放军信息工程大学信息系统工程学院;
【基金】:国家自然科学基金项目(61175017,61403415,61302107)~~
【分类号】:TN912.34;TP183
【相似文献】
相关期刊论文 前9条
1 张晴晴;潘接林;颜永红;;基于发音特征的汉语普通话语音声学建模[J];声学学报;2010年02期
2 秦春香;黄浩;哈力旦·阿不都热依木;;基于音位学特征的维吾尔语声学建模[J];新疆大学学报(自然科学版);2012年03期
3 韩疆;刘晓星;颜永红;张鹏远;;一种任务域无关的语音关键词检测系统[J];通信学报;2006年02期
4 吴鹏飞;刘加;;中英文混合孤立词识别系统声学建模方法研究[J];电声技术;2009年11期
5 刘林泉;郑方;吴文虎;;基于小数据量的方言普通话语音识别声学建模[J];清华大学学报(自然科学版);2008年04期
6 董仲臣;金彦丰;李亚安;刘望生;;被动式声诱饵声学建模及仿真实现[J];电子设计工程;2013年10期
7 丁鹏,徐波;综合非语境因素的语音数据分类与声学建模研究[J];声学学报;2004年01期
8 吾守尔·斯拉木;刘俊;王飞飞;;基于DDBHMM的维吾尔语语音声学层识别系统研究[J];新疆大学学报(自然科学版);2010年04期
9 ;[J];;年期
相关会议论文 前1条
1 于胜民;张树武;徐波;;汉英双语混合声学建模方法初探[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
相关博士学位论文 前1条
1 陈伟;语音识别声学建模中的主动学习研究[D];北京邮电大学;2011年
相关硕士学位论文 前4条
1 彭荻;语音识别系统的声学建模研究[D];北京邮电大学;2007年
2 王冠雄;声学建模中若干问题的研究[D];北京邮电大学;2009年
3 黄苏园;普通话学习中地方口音的声学建模[D];重庆大学;2006年
4 徐颖;语种识别声学建模方法研究[D];中国科学技术大学;2011年
,本文编号:1816018
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1816018.html