说话人识别情感合成问题的概率模型研究
本文关键词:说话人识别情感合成问题的概率模型研究
更多相关文章: 情感说话人识别 信道适配 贝叶斯统计 非参数模型 Metropolis-Hasting采样 联合因子分析 模型选择 统计距离 指数分布组 新奇度检测
【摘要】:说话人识别技术对智能通信和信息处理具有重要的推进作用。同时,语音数据具有高维时间序列的典型特征,是信号处理和模式识别领域各种算法验证的珍贵数据资源。因此,这个领域的研究工作一直火热地进行着。语音识别系统的效率容易受到会话差异的影响。即测试语音和训练语音不匹配的情况下,算法准确率会相对下降。其中由于录音者情感变化导致的测试和训练语音不匹配被称为情感失配,这至今是一个开放问题,一直没有很好地被解决。本论文针对说话人识别情感失配问题,进行了原理的分析和现象的总结。证明说话人情感变换与常见的信道失配问题的不同,解释了现有算法难以解决这个问题的原因。并针对情感噪音的特质提出了基于概率模型的统计推断方法。完善了已有情感合成算法的理论基础,获得了在MASC数据库上个人可以重现的最佳效果。针对当前主流的因子分析模型过度拟合的问题,将原模型改进为更符合语音数据特征的完全贝叶斯模型和非参数IBP模型,并给出求解的迭代算法和MCMC采样算法。成功地在不降低推断效果的基础上,将因子分析的模型参数缩减到原问题的30%。本论文的主要贡献如下:1.针对说话人识别情感失配问题,进行了原理的分析和现象的总结。针对不同的说话人以及不同的情感,目前仍然没有通用的模型可以描述情感变化的原因。针对不同的语音元素(音素)、说话人身份、情绪特性等等对说话人特征引起的变化具有很强的非线性特性。与一般的信道失配不同,情感失配没有办法用分隔开的空间分别表征说话人身份和信道的特征。由于数据量的不足,也没有办法通过LDA等技术进行无关信息的降维处理。值得注意的是,情感变化具有邻居相似的特性。即中性语音特征相似的说话人,一般在其他情感下也具有类似的特征。2.对说话人识别问题的概率推断模型进行抽象,将测试样本和模型参数数量引入分布提出了基于统计距离的分类模型。现阶段常用的通用背景模型系统经常依赖阶数很高的高斯混合模型训练。这类模型依赖相对庞大的背景语音数据库以及长度相对统一的训练和测试数据。基于贝叶斯统计的推断方法依指数分布族的共轭先验对进行生成模型的估计,不需要高斯混合模型的EM迭代训练,与之相比具有计算复杂性和算法效率上的优势。此外,通过基于AIC和BIC等模型选择理论的统计距离标准,可以有效地解决因语音长度变化等引起的信道失配问题。3.基于流型学习理论,对原有的近邻合成算法进行了推广,并在该框架下提出最优合成的求解方式,获得了模型合成最好的结果。由于情感变化具有邻居相似的特点,我们可以通过背景数据集中与训练模型相似的数据合成对应说话人其他情感的模型。本文提出了邻域最优线性合成算法,这种算法通过求解有约束的二阶优化问题,基于背景对中性语音模型进行最优重建。这个重建具有多种映射不变的特性,因此这个规律可以迁移到其他情感空间,采用对应的情感模型参数,对训练语音模型的情感参数进行估计。4.针对联合因子分析模型过度拟合的问题,提出了完整的概率方法,规范了模型的理论依据,并进行了非参数推广。联合因子分析模型在求解时,采用的是对特征变量进行估计,再对参数矩阵进行优化的EM迭代。由于对参数的稀疏性没有限制,并且参数矩阵的参数个数远大于特征向量,模型十分容易过度拟合,让说话人因子的范数无限接近O。通过对参数矩阵添加先验分布,我们可以用坐标下降的方法对模型进行迭代更新。实验证明这个算法可以有效地解决过度拟合的问题。在此基础上,本文又提出了基于IBP的非参数GMM超向量因子分析模型。可以自动适应说话人特征维度,将与说话人特征无关的高斯分量参数舍弃,提高模型的鲁棒性。实验证明可以以一般JFA模型30%的参数达到与其相同的识别效果。
【关键词】:情感说话人识别 信道适配 贝叶斯统计 非参数模型 Metropolis-Hasting采样 联合因子分析 模型选择 统计距离 指数分布组 新奇度检测
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
- 摘要5-7
- Abstract7-14
- 第1章 绪论14-22
- 1.1 引言14-15
- 1.2 说话人识别简介15-17
- 1.3 测试语音失配问题的解决方法17-18
- 1.4 情感说话人识别面临的主要问题及目前的解决办法18-20
- 1.5 本文的主要研究工作20-22
- 第2章 说话人识别概率模型算法简介22-35
- 2.1 简介22
- 2.2 语音特征提取22-25
- 2.2.1 MFCC特征23-25
- 2.3 基于概率模型推断的说话人识别25-34
- 2.3.1 高斯混合模型27-28
- 2.3.2 通用背景模型28-30
- 2.3.3 联合因子分析30-32
- 2.3.4 基于I-Vector特征的模型32-34
- 2.4 本章小结34-35
- 第3章 情感说话人识别35-43
- 3.1 情感变化对说话人识别算法的影响35-38
- 3.1.1 信道失配问题概述35-36
- 3.1.2 情感失配情况下的说话人识别效率36-38
- 3.2 情感失配的分析与表达38-39
- 3.2.1 情感变换的规律38-39
- 3.2.2 情感说话人识别的处理方法39
- 3.3 基于模型合成的情感说话人识别系统39-42
- 3.3.1 问题说明39-42
- 3.3.2 已有算法的不足42
- 3.4 本章小结42-43
- 第4章 情感变化幅度的概率模型43-56
- 4.1 简介43
- 4.2 新奇检测43-47
- 4.2.1 离群点检测44-45
- 4.2.2 新奇度判别算法45-47
- 4.3 贝叶斯差异47-49
- 4.3.1 指数分布族的贝叶斯差异计算48
- 4.3.2 高斯分布和高斯混合模型贝叶斯差异的计算48-49
- 4.4 稳定贝叶斯差异49-52
- 4.4.1 AIC50-51
- 4.4.2 AIC相关的准则51
- 4.4.3 BIC51-52
- 4.4.4 AIC和BIC的比较52
- 4.5 说话人识别实验52-55
- 4.5.1 单高斯模型统计距离分类53-54
- 4.5.2 高斯混合模型的统计距离分类54-55
- 4.6 本章小结55-56
- 第5章 说话人情感模型合成56-61
- 5.1 简介56
- 5.2 GMM模型均值合成56-57
- 5.3 最优线性GMM均值合成57-59
- 5.3.1 局部线性映射57-58
- 5.3.2 基于LLM的情感模型合成58-59
- 5.4 实验结果59-60
- 5.4.1 实验数据库59
- 5.4.2 均值合成算法59-60
- 5.5 本章小结60-61
- 第6章 贝叶斯因子分析与情感特征合成61-72
- 6.1 简介61-62
- 6.1.1 JFA及相关算法的局限性61-62
- 6.1.2 改进JFA的鲁棒性62
- 6.2 贝叶斯因子分析62-64
- 6.2.1 基本模型62-63
- 6.2.2 非参数模型63-64
- 6.3 贝叶斯稀疏因子模型64-67
- 6.3.1 基于IBP的非参数隐含特征模型65
- 6.3.2 吉布斯采样65-66
- 6.3.3 变分推导66-67
- 6.4 基于稀疏字典的情感因子重建67-68
- 6.5 实验结果68-70
- 6.5.1 NIST测试68
- 6.5.2 MASC测试68-70
- 6.6 本章小结70-72
- 第7章 总结与展望72-76
- 7.1 总结72-74
- 7.2 未来工作展望74-76
- 参考文献76-86
- 致谢86
【相似文献】
中国期刊全文数据库 前10条
1 石艳;王晓晔;;新颖检测法在说话人识别技术中的应用[J];现代计算机(专业版);2008年07期
2 刘雪燕;张娜;袁宝玲;;说话人识别综述[J];电脑知识与技术;2009年01期
3 邱政权;范小春;王俊年;;基于动态环境下的说话人识别[J];科学技术与工程;2010年02期
4 单进;;说话人识别技术研究[J];科技资讯;2010年21期
5 申志生;于明;;说话人识别算法的定点DSP实现[J];单片机与嵌入式系统应用;2011年03期
6 谢建勋;;浅谈说话人识别技术[J];电脑知识与技术;2011年11期
7 安茂波;刘建;;一个快速说话人识别系统的设计和实现[J];网络新媒体技术;2012年03期
8 杨迪;戚银城;刘明军;张华芳子;武军娜;;说话人识别综述[J];电子科技;2012年06期
9 武光利;;说话人识别方法概述[J];硅谷;2012年19期
10 曹业敏,侯风雷,王炳锡;说话人识别技术现状与进展[J];河南科技;1998年09期
中国重要会议论文全文数据库 前10条
1 鲍福良;方志刚;徐洁;;说话人识别综述[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
2 孙帆;迟惠生;;循环网络说话人识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 肖剑;欧贵文;;多层前馈神经网络组的文本无关说话人识别[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 张玲华;郑宝玉;杨震;;模糊超椭球聚类算法及其在说话人识别中的应用研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
5 王宏;潘金贵;;基于矩阵正态分布的文本有关说话人识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
6 戴红霞;赵力;;文本无关说话人识别系统的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年
7 陈联武;郭武;戴礼荣;;说话人识别系统中多样训练的应用[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
8 崔玉红;胡光锐;;基于神经网络特征维数压缩方法及其在说话人识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
9 吴丽丽;;基于仿生模式识别的说话人识别学习模型研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
10 张晶;董金明;冯文全;;说话人识别系统研究与实现[A];全国第二届信号处理与应用学术会议专刊[C];2008年
中国重要报纸全文数据库 前2条
1 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年
2 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
2 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年
3 刘镝;说话人识别中信息融合算法的研究[D];北京交通大学;2011年
4 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年
5 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年
6 邱政权;在噪声环境下的说话人识别[D];华南理工大学;2007年
7 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
8 钱博;基于汉语元音映射的说话人识别技术研究[D];南京理工大学;2007年
9 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年
10 俞一彪;基于互信息理论的说话人识别研究[D];上海大学;2004年
中国硕士学位论文全文数据库 前10条
1 丛菡菡;基于支持相量机的稳键说话人识别[D];电子科技大学;2008年
2 任舒彬;面向手持应用的说话人识别算法研究[D];浙江大学;2006年
3 申志生;文本相关说话人识别嵌入式系统及其关键技术研究[D];河北工业大学;2011年
4 汪q,
本文编号:859209
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/859209.html