基于高层信息融合的短语音说话人识别方法研究
本文关键词:基于高层信息融合的短语音说话人识别方法研究
更多相关文章: 筛选高斯分量 韵律特征 二次判决 特征降维 身份矢量
【摘要】:语音信号是人类情感交流和认知分享的重要载体,也是人类最基本和最自然的交流方式。说话人识别是研究如何从语音波纹中提取能表征语者个性化特征的信息,进而利用该个性化信息通过建模方式对语者的身份做出判决的技术。高斯混合模型凭借其出色的性能而被广泛地应用于说话人识别领域。为了解决测试环境与训练环境失配的问题,主流模型通常会引入一个非目标人模型,非目标说话人模型包括通用背景模型和竞争模型,引入通用背景模型后构成GMM-UBM系统。针对个人GMM与UBM音素空间不匹配的问题,Reynolds提出基于最大后验概率升级的UBM-MAP-GMM系统。与此同时,随着基于声道信息的浅层特征参数的提取逐渐进入了瓶颈期,学者们将注意力转向了高层信息融合的新特征,如基于声门信息的韵律特征。除此之外,针对通道失配等补偿技术被不断地提出,其中JFA和i-vector凭借其夯实的理论基础而备受青睐,其将低维语音信号映射至高维超矢量空间后进行分析。基于上述分析,本论文主要研究以下内容:1、针对UBM-MAP-GMM系统中部分高斯分量具有低区分性甚至拉低系统得分,提出了一种基于筛选高斯分量的确认方法。通常认为GMM中各高斯分量代表空间音素类,而UBM代表普遍的声学信息类。通过UBM自适应得到的个人GMM中不仅具有语者个性化的信息,也包含了在训练阶段完全不存在的非说话人信息。另外值得考虑的是,用于训练个人GMM的语音受限于时长和文本内容等,导致部分音素类信息不足,进而导致对部分音素类信息的建模出现偏差。体现在自适应后的个人GMM中就是有些高斯分量无法准确地描述语者信息,即具有低区分性。实验结果表明,改进后的系统识别性能得到改善。2、针对基于浅层声道特性的特征参数对识别性能的提升乏力,提出了一种基于高层信息融合的确认方法,该方法巧妙地将浅层短时特征参数和高层信息通过二次判决机制融合在了同一框架中。理论上,反映声道特性的短时特征参数与反映声门信息的韵律特征参数从不同角度刻画了语者,故具有互补进而提升系统性能的能力。实验结果表明,结合基频和共振峰等高层信息的文本依赖的确认系统能有效地降低等错误率。3、针对降维后特定主成分中蕴含说话人个性化信息,提出一种基于降维超矢量的说话人确认算法。由最大后验概率算法得到的个人GMM的高斯超矢量,经过特征降维处理后发现前两维主成分中蕴含的性别信息明显,而前特定维主成分中则蕴含的语者个性化信息明显。基于前者,首先提出一种性别选择策略和GMM-SUBM架构。基于后者,本文通过实验确定用于表征测试者身份的最佳维度。实验结果表明,该方法能通过低复杂度算法提取得到一个身份矢量来表征语者,同时在短语音时系统识别效果得到改善。
【关键词】:筛选高斯分量 韵律特征 二次判决 特征降维 身份矢量
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
- 摘要5-6
- ABSTRACT6-11
- 第1章 绪论11-21
- 1.1 研究背景及意义11
- 1.2 说话人识别概述11-17
- 1.2.1 说话人识别分类12-14
- 1.2.2 说话人确认系统基本原理14-15
- 1.2.3 说话人确认系统评价指标15-17
- 1.3 研究历程与现状17-19
- 1.4 本文的主要内容及结构安排19-20
- 1.5 本章小结20-21
- 第2章 声纹识别基础概述21-38
- 2.1 引言21
- 2.2 声纹特征概述21-24
- 2.2.1 线性预测倒谱系数22
- 2.2.2 梅尔频率倒谱系数22-24
- 2.2.3 伽马通滤波倒谱系数24
- 2.3 规整算法24-29
- 2.3.1 倒谱均值方差规整25
- 2.3.2 相关频谱滤波器25-26
- 2.3.3 特征弯折26-27
- 2.3.4 基于声门信息剥离的特征规整27-29
- 2.4 声纹识别中常用技术介绍29-33
- 2.4.1 最大期望迭代算法29-31
- 2.4.2 联合因子算法31
- 2.4.3 主成分分析算法31-32
- 2.4.4 动态时间规划算法32-33
- 2.5 高斯混合模型及其参数估计33-37
- 2.5.1 高斯混合模型基本概念及其物理意义33-36
- 2.5.2 基于高斯混合模型的确认系统36-37
- 2.6 本章小结37-38
- 第3章 基于筛选高斯分量的说话人确认方法38-52
- 3.1 引言38-39
- 3.2 基于自适应模型的确认算法39-44
- 3.2.1 自适应模型基本原理39-41
- 3.2.2 自适应模型参数更新41-44
- 3.3 基于筛选高斯分量的确认算法44-48
- 3.3.1 高斯分量区分性能分析44-45
- 3.3.2 基于挑选机制的确认算法45-47
- 3.3.3 算法流程47-48
- 3.4 仿真实验与数据分析48-51
- 3.4.1 实验数据库介绍48-49
- 3.4.2 实验仿真结果与分析49-51
- 3.5 本章小结51-52
- 第4章 基于高层信息融合的短语音确认方法52-63
- 4.1 引言52-53
- 4.2 韵律特征53-55
- 4.2.1 基音频率53-54
- 4.2.2 共振峰54-55
- 4.3 基于高层信息融合的短语音确认方法55-57
- 4.4 实验仿真与性能分析57-62
- 4.4.1 实验数据库介绍57
- 4.4.2 实验仿真结果与分析57-62
- 4.5 文章小结62-63
- 第5章 基于超矢量降维的说话人确认方法63-73
- 5.1 引言63-64
- 5.2 基于分类与降维的确认算法64-67
- 5.2.1 基于分类的确认方法65-66
- 5.2.2 基于降维的确认方法66-67
- 5.3 仿真实验与结果分析67-72
- 5.3.1 实验数据库介绍67-68
- 5.3.2 实验仿真结果与分析68-72
- 5.4 小结72-73
- 第6章 总结73-74
- 致谢74-75
- 参考文献75-79
- 附录79
【相似文献】
中国期刊全文数据库 前10条
1 石艳;王晓晔;;新颖检测法在说话人识别技术中的应用[J];现代计算机(专业版);2008年07期
2 刘雪燕;张娜;袁宝玲;;说话人识别综述[J];电脑知识与技术;2009年01期
3 邱政权;范小春;王俊年;;基于动态环境下的说话人识别[J];科学技术与工程;2010年02期
4 单进;;说话人识别技术研究[J];科技资讯;2010年21期
5 申志生;于明;;说话人识别算法的定点DSP实现[J];单片机与嵌入式系统应用;2011年03期
6 谢建勋;;浅谈说话人识别技术[J];电脑知识与技术;2011年11期
7 安茂波;刘建;;一个快速说话人识别系统的设计和实现[J];网络新媒体技术;2012年03期
8 杨迪;戚银城;刘明军;张华芳子;武军娜;;说话人识别综述[J];电子科技;2012年06期
9 武光利;;说话人识别方法概述[J];硅谷;2012年19期
10 曹业敏,侯风雷,王炳锡;说话人识别技术现状与进展[J];河南科技;1998年09期
中国重要会议论文全文数据库 前10条
1 鲍福良;方志刚;徐洁;;说话人识别综述[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
2 孙帆;迟惠生;;循环网络说话人识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 肖剑;欧贵文;;多层前馈神经网络组的文本无关说话人识别[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 张玲华;郑宝玉;杨震;;模糊超椭球聚类算法及其在说话人识别中的应用研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
5 王宏;潘金贵;;基于矩阵正态分布的文本有关说话人识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
6 戴红霞;赵力;;文本无关说话人识别系统的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年
7 陈联武;郭武;戴礼荣;;说话人识别系统中多样训练的应用[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
8 崔玉红;胡光锐;;基于神经网络特征维数压缩方法及其在说话人识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
9 吴丽丽;;基于仿生模式识别的说话人识别学习模型研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
10 张晶;董金明;冯文全;;说话人识别系统研究与实现[A];全国第二届信号处理与应用学术会议专刊[C];2008年
中国重要报纸全文数据库 前2条
1 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年
2 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
2 别凡虎;说话人识别中区分性问题的研究[D];清华大学;2015年
3 谢怡宁;基于稀疏编码的鲁棒说话人识别方法研究[D];哈尔滨理工大学;2016年
4 安冬;噪声背景下说话人识别的若干关键问题研究[D];东北大学;2013年
5 吴迪;低信噪比环境下说话人识别研究[D];苏州大学;2016年
6 酆勇;基于深度学习的说话人识别建模研究[D];重庆大学;2016年
7 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年
8 刘镝;说话人识别中信息融合算法的研究[D];北京交通大学;2011年
9 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年
10 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 丛菡菡;基于支持相量机的稳键说话人识别[D];电子科技大学;2008年
2 任舒彬;面向手持应用的说话人识别算法研究[D];浙江大学;2006年
3 申志生;文本相关说话人识别嵌入式系统及其关键技术研究[D];河北工业大学;2011年
4 汪q,
本文编号:798542
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/798542.html