当前位置:主页 > 科技论文 > 网络通信论文 >

基于子空间的说话人自适应技术研究

发布时间:2018-02-17 05:22

  本文关键词: 连续语音识别 说话人自适应 流形学习 本征音 正交局部保持投影 正则化方法 特征参数归一化 出处:《解放军信息工程大学》2014年硕士论文 论文类型:学位论文


【摘要】:训练与测试数据之间关于说话人的失配制约着连续语音识别系统的实用化。如何利用少量的自适应数据,增加声学模型与测试数据之间的匹配程度,一直是连续语音识别研究的重点和难点问题。子空间方法通过对高维空间中的低维流形结构进行建模,不仅可以对高维空间进行降维,有效地避免维数灾难问题,而且可以发现数据本身的结构特点,提高模型参数估计的稳健性。本文研究如何利用子空间技术获得更为实用化的说话人自适应技术,主要内容如下:针对本征音算法在自适应数据量较少时,易出现过拟合导致系统性能下降的问题,提出了正则化本征音说话人自适应方法。该方法通过对目标函数引入适当的正则化因子,构造新的目标函数进行优化,从而估计出更优的说话人因子,提高解的稳定性。在NIST LRE2003评测集上进行的语种识别实验表明,改进算法与基线系统相比,在测试语料为短语音段时,系统性能有一定的提升,且测试语料越短,性能提升越明显。在微软语料库上进行的中文连续语音识别实验表明,在自适应数据较为充足时,正则化本征音自适应方法略微降低了系统的性能,但在自适应数据不足时,正则化本征音自适应方法可以有效的提高系统的稳健性。针对本征音这类线性子空间方法无法精细描述非线性子空间内在结构的问题,提出了正交拉普拉斯说话人自适应方法。该方法通过正交局部保持投影算法对说话人子空间进行分析,在去除声学无关信息的基础上,进一步发现这些信息的内在结构。并分别给出了该方法适用于语种识别和连续语音识别的系统框架和实现步骤。在NIST LRE 2003评测集上进行的语种识别实验证明正交拉普拉斯算法能够有效的提升特征的区分性。在微软语料库上进行的中文连续语音识别实验进一步证明该方法优于本征音说话人自适应方法。针对模型层的说话人自适应影响解码速度的问题,提出了特征空间本征音自适应方法。该方法借鉴RATZ算法,采用高斯混合模型对特征空间中的说话人信息进行建模,同时充分利用估计参数之间的相关性,减少估计参数的数量,在对特征空间精确建模的同时,降低了算法对自适应数据量的需求。在基于微软语料库的中文连续语音识别实验中,特征空间本征音自适应方法在自适应数据量极少时仍能取得较好的性能,同时配合说话人自适应训练能够进一步降低词错误率。
[Abstract]:The mismatch between the training and test data about the speaker restricts the practicability of the continuous speech recognition system. How to use a small amount of adaptive data to increase the matching degree between the acoustic model and the test data, Subspace method can not only reduce the dimension of high-dimensional space, but also avoid the problem of dimensionality disaster by modeling the low-dimensional manifold structure in high-dimensional space. Moreover, the structural characteristics of the data can be found and the robustness of model parameter estimation can be improved. In this paper, we study how to use subspace technology to obtain more practical speaker adaptive technology. The main contents are as follows: when the adaptive data amount is small, the intrinsic sound algorithm is prone to the problem that over-fitting results in the deterioration of system performance. A regularization eigen-speaker adaptive method is proposed in this paper. By introducing a proper regularization factor to the objective function, a new objective function is constructed and the better speaker factor is estimated. The experiment of language recognition on NIST LRE2003 evaluation set shows that compared with the baseline system, the improved algorithm can improve the performance of the system when the test corpus is phrasal segment, and the shorter the test data is, the better the performance of the improved algorithm is. The performance improvement is more obvious. The Chinese continuous speech recognition experiment on Microsoft corpus shows that when the adaptive data is more adequate, the regularized intrinsic tone adaptive method slightly reduces the performance of the system, but when the adaptive data is insufficient, the regularized intrinsic tone adaptive method reduces the performance of the system slightly, but when the adaptive data is insufficient, The regularization eigentone adaptive method can effectively improve the robustness of the system. The linear subspace method such as eigensound can not accurately describe the problem of structure in nonlinear subspace. An orthogonal Laplace speaker adaptive method is proposed, in which the speaker subspace is analyzed by orthogonal local preserving projection algorithm, and the acoustic-independent information is removed. Furthermore, the internal structure of these information is found. The system framework and implementation steps of this method for language recognition and continuous speech recognition are given respectively. The experimental results of language recognition based on NIST LRE 2003 prove that the orthogonal method is orthogonal. Laplace algorithm can effectively improve the distinction of features. The experiment of Chinese continuous speech recognition in Microsoft corpus further proves that this method is superior to the intrinsic speaker adaptive method. The problem of human adaptation affecting decoding speed, Based on the RATZ algorithm, Gao Si hybrid model is used to model the speaker information in the feature space, and the correlation between the estimated parameters is fully utilized to reduce the number of the estimated parameters. At the same time, the requirement of adaptive data is reduced. In the experiment of Chinese continuous speech recognition based on Microsoft corpus, The eigenspace eigensound adaptive method can achieve good performance even when the adaptive data is small, and the speaker adaptive training can further reduce the word error rate.
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TN912.34

【相似文献】

相关期刊论文 前10条

1 谢承迪;自适应运筹滤波方法[J];数值计算与计算机应用;1994年01期

2 周宏宇;王爱民;;非线性偏微分方程数值求解的自适应方法研究[J];计算机工程与应用;2011年20期

3 张宗国,罗笑南;基于自适应龙格-库塔方法的柔性织物仿真[J];计算机应用研究;2004年12期

4 詹昊可;蔡志明;苑秉成;;主动声纳空时自适应混响抑制方法[J];数据采集与处理;2009年01期

5 张征;刘更;刘天祥;;接触力学自适应无网格计算系统设计[J];计算机仿真;2008年06期

6 丰洪才,卢正鼎;基于MAP和MLLR的综合渐进自适应方法研究[J];计算机工程;2005年05期

7 宋玉明,方大纲;自适应小波多重网格方法及其计算效率[J];南京理工大学学报(自然科学版);1997年03期

8 葛海龙;马晓星;许畅;;自适应软件系统构造——自动避障三轮小车的案例研究[J];计算机科学与探索;2012年05期

9 毛虎平;苏铁熊;李建军;;多元模型自适应与时间谱元法结合的动态优化[J];计算机辅助设计与图形学学报;2013年11期

10 蔡铁;朱杰;;基于支持说话人权重的快速说话人自适应算法[J];上海交通大学学报;2005年12期

相关会议论文 前10条

1 袁驷;和雪峰;;一个高效的一维有限元自适应求解的新方案——第十三届全国结构工程学术大会特邀报告[A];第十三届全国结构工程学术会议论文集(第Ⅰ册)[C];2004年

2 袁驷;方楠;王旭;叶康生;邢沁妍;;二维有限元线法自适应分析的若干新进展[A];第19届全国结构工程学术会议论文集(第Ⅰ册)[C];2010年

3 汪新;;自适应边界元方法[A];计算力学研究与进展——中国力学学会青年工作委员会第三届学术年会论文集[C];1999年

4 段庆生;袁国兴;;激光等离子体流场的网格自适应方法[A];中国空气动力学学会物理气体动力学专业委员会第十一届学术交流会会议论文集[C];2003年

5 安峰岩;孙红灵;李晓东;田静;;分散自适应主动控制参数优化设计[A];中国声学学会第九届青年学术会议论文集[C];2011年

6 周春华;;不可压流数值模拟中基于事后误差估算的网格自适应方法[A];计算流体力学研究进展——第十二届全国计算流体力学会议论文集[C];2004年

7 袁驷;和雪峰;;一个高效的一维有限元自适应求解的新方案[A];工程力学学术研讨会论文集[C];2004年

8 于光;郑治真;;重力观测数据中零漂的扣除——自适应技术的一种应用[A];中国地震学会第三次全国地震科学学术讨论会论文摘要汇编[C];1986年

9 吴根清;郑方;金凌;吴文虎;;一种在线递增式语言模型自适应方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年

10 王会珍;朱靖波;季铎;叶娜;张斌;;基于反馈学习自适应的中文话题追踪[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

相关博士学位论文 前10条

1 陈碧欢;基于需求和体系结构的软件系统自适应方法[D];复旦大学;2014年

2 王周峰;几种光栅问题的自适应DtN有限元方法[D];南京大学;2015年

3 赵迎功;统计机器翻译中领域自适应问题研究[D];南京大学;2015年

4 张西文;饱和砂土地震液化自适应步长数值方法研究[D];大连理工大学;2015年

5 李江涛;车载导航路网的胞式化寻路与密度自适应[D];清华大学;2015年

6 杜炎;基于EEP法的一维非线性有限元自适应分析[D];清华大学;2012年

7 周宇;中国手语识别中自适应问题的研究[D];哈尔滨工业大学;2010年

8 肖嘉;基于EEP法的线法二阶常微分方程组有限元自适应分析[D];清华大学;2009年

9 韩志熔;网格自适应与并行计算在气动力计算中的应用[D];南京航空航天大学;2013年

10 陈根龙;基于并行自适应有限元的互连线建模与分析方法[D];复旦大学;2012年

相关硕士学位论文 前10条

1 谢奕;基于Agent的开放系统自适应框架[D];复旦大学;2014年

2 陈星;带齐次混合边界特征值问题的一种基于多尺度离散的有限元自适应算法[D];贵州师范大学;2015年

3 余媛媛;基于移位反迭代的非协调Crouzeix-Raviart有限元自适应方法求Laplace特征值问题[D];贵州师范大学;2015年

4 王彪;弱不连续问题的p型自适应有限元及其快速求解方法[D];湘潭大学;2015年

5 韩骑;自适应非结构有限元MT二维起伏地形正反演研究[D];中国地质大学;2015年

6 杨绪魁;基于子空间的说话人自适应技术研究[D];解放军信息工程大学;2014年

7 白思林;h-,,p-,hp-自适应边界元方法研究[D];燕山大学;2009年

8 舒冬;二维自适应有限元静力分析方法研究[D];中南大学;2012年

9 杨银;奇异摄动问题的自适应方法[D];湘潭大学;2006年

10 夏佳佳;大规模森林场景的自适应可视化技术研究[D];浙江工业大学;2012年



本文编号:1517315

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/1517315.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3c90f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com