加权成对约束度量学习算法在说话人识别中的应用
本文关键词:加权成对约束度量学习算法在说话人识别中的应用,由笔耕文化传播整理发布。
【摘要】:说话人识别技术是一种通过对目标说话人的语音进行处理与分析,从而判断出该说话人身份的技术。目前,说话人识别作为人与计算机进行交互的一种智能接口有着非常广泛的用途,它具有方便快捷、经济可靠和扩展性好等许多优点,已经被广泛用于远程身份验证,同时在军事和医学领域,尤其是基于电信网络的身份识别应用,说话人识别技术的前景同样非常广阔。如何有效地对说话人语音进行相似度判别,是目前说话人识别研究领域非常重要的关键问题之一。模式识别领域中,样本间相似度的衡量方法有很多,其中常用的方法有距离打分法,如余弦距离打分(cosine distance scoring)和马氏距离打分(Mahalanobis distance scoring)等。目前最流行的基于i-vector模型的说话人识别系统常用余弦距离来衡量说话人语音间的相似度,余弦距离打分法根据样本向量间的夹角来判断样本间的相似度,难以衡量样本在量上的区别。马氏距离打分法根据投影在能真实反映样本相似性的样本空间中的新样本向量间的欧氏距离,来衡量样本间的相似度。用于投影到样本空间的映射矩阵称为度量矩阵,它可用于描述样本空间的相似性。不同的度量矩阵描述的样本空间也不同,只有得到正确的度量矩阵,通过其计算出来的马氏距离才能真实的反映样本间的相似性。度量学习根据训练样本含有的信息,通过自动学习得到一个距离度量矩阵,常用于计算目标样本间的马氏距离,从而对未知数据的相似度进行预测。本文主要工作和创新如下:(1)本文对Cao等提出的子空间相似性度量学习(Subspace Similarity Metric Learning,SUB-SML)算法中的子算法(Subspace Metric Learning,SUB-ML)进行改进,根据相似训练样本对与非相似训练样本对在度量学习训练过程的影响程度进行加权约束,提出加权成对约束度量学习(Weighted Pairwise constraint Metric Learning,WPCML)算法。该算法利用成对训练样本的约束信息训练一个用于描述样本空间相似度的度量矩阵,用来计算i-vector语音样本间的马氏距离。该算法的原理非常直观,而且简单有效,目标函数的最优化求解能得到全局最优解,并能迅速求得满足设定条件的度量矩阵,而用于训练的样本对只需知道其是否属于同类。美国国家标准技术局(NIST)说话人评测(SRE)2008年数据集上的实验结果表明,WPCML算法训练度量矩阵用于马氏距离相似度打分的分类性能优于余弦距离相似度打分。(2)训练样本对集的构造是度量学习研究中的一个重要问题。合适的训练样本对含有的有效信息更能正确指导训练过程。大部分度量学习算法采用随机构造的方法来构造度量学习训练样本对集。本文对训练样本对集的构造方法进行研究,提出选择训练样本对法构建度量矩阵训练样本对集。选择训练样本对方法用于度量学习训练样本集的构造能进一步提高系统实验性能,并优于目前最流行的PLDA分类器。
【关键词】:说话人识别 马氏距离 度量学习 机器学习 模式识别
【学位授予单位】:江西师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181;TN912.34
【目录】:
- 中文摘要3-5
- Abstract5-9
- 1 绪论9-15
- 1.1 说话人识别概述9-11
- 1.1.1 说话人识别的概念9-10
- 1.1.2 说话人识别研究现状分析10-11
- 1.2 度量学习概述11-13
- 1.2.1 度量学习的概念11-12
- 1.2.2 度量学习的研究现状分析12-13
- 1.3 研究内容与创新点:13-14
- 1.3.1 研究内容13
- 1.3.2 创新点13-14
- 1.4 本文内容组织14-15
- 2 基于I-VECTOR模型的说话人识别系统15-25
- 2.1 语音预处理15-16
- 2.2 基于MFCC的特征提取16
- 2.3 说话人模型的建立16-20
- 2.3.1 GMM-UBM说话人识别模型16-18
- 2.3.2 说话人i-vector模型18-20
- 2.4 信道补偿技术20-22
- 2.4.1 线性判别性分析21
- 2.4.2 类内协方差规整21-22
- 2.4.3 长度规整22
- 2.5 打分判别22-23
- 2.5.1 余弦相似度打分22
- 2.5.2 PLDA模型打分22-23
- 2.5.3 马氏距离打分23
- 2.6 性能评估23-24
- 2.6.1 识别率23
- 2.6.2 等错误率EER23-24
- 2.6.3 检测代价函数DCF24
- 2.7 本章小结24-25
- 3 加权成对约束度量学习算法25-33
- 3.1 子空间度量学习算法SUB-ML26-29
- 3.1.1 映射类内子空间26
- 3.1.2 度量学习目标函数26-27
- 3.1.3 目标函数的求解27-29
- 3.2 加权成对约束度量学习算法WPCML29-32
- 3.2.1 映射类内子空间29
- 3.2.2 度量学习目标函数29
- 3.2.3 加权约束对损失函数29-30
- 3.2.4 目标函数的求解30-32
- 3.3 本章小结32-33
- 4 度量矩阵训练样本对集的构造33-38
- 4.1 成对约束训练样本对集的构造33-34
- 4.2 传统度量矩阵训练样本对集的构造方法34-35
- 4.2.1 随机选择法34
- 4.2.2 交叉验证法34-35
- 4.3 选择训练样本对集构造方法35-37
- 4.4 本章小结37-38
- 5 实验及结果分析38-45
- 5.1 实验设置38-39
- 5.2 基线对比实验39
- 5.2.1 实验 1(Cosine+ZTNORM):39
- 5.2.2 实验 2(PLDA):39
- 5.3 度量学习实验39-40
- 5.3.1 实验 3(SUB-ML):40
- 5.3.2 实验 4(SUB-ML-s):40
- 5.3.3 实验 5(SUB-WPCML-s):40
- 5.4 实验结果与分析40-44
- 5.5 本章小结44-45
- 6 总结与展望45-47
- 6.1 总结45
- 6.2 展望45-47
- 参考文献47-51
- 致谢51-52
- 在读期间公开发表论文(著)及科研情况52
【相似文献】
中国期刊全文数据库 前10条
1 石艳;王晓晔;;新颖检测法在说话人识别技术中的应用[J];现代计算机(专业版);2008年07期
2 刘雪燕;张娜;袁宝玲;;说话人识别综述[J];电脑知识与技术;2009年01期
3 邱政权;范小春;王俊年;;基于动态环境下的说话人识别[J];科学技术与工程;2010年02期
4 单进;;说话人识别技术研究[J];科技资讯;2010年21期
5 申志生;于明;;说话人识别算法的定点DSP实现[J];单片机与嵌入式系统应用;2011年03期
6 谢建勋;;浅谈说话人识别技术[J];电脑知识与技术;2011年11期
7 安茂波;刘建;;一个快速说话人识别系统的设计和实现[J];网络新媒体技术;2012年03期
8 杨迪;戚银城;刘明军;张华芳子;武军娜;;说话人识别综述[J];电子科技;2012年06期
9 武光利;;说话人识别方法概述[J];硅谷;2012年19期
10 曹业敏,侯风雷,王炳锡;说话人识别技术现状与进展[J];河南科技;1998年09期
中国重要会议论文全文数据库 前10条
1 鲍福良;方志刚;徐洁;;说话人识别综述[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
2 孙帆;迟惠生;;循环网络说话人识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 肖剑;欧贵文;;多层前馈神经网络组的文本无关说话人识别[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 张玲华;郑宝玉;杨震;;模糊超椭球聚类算法及其在说话人识别中的应用研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
5 王宏;潘金贵;;基于矩阵正态分布的文本有关说话人识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
6 戴红霞;赵力;;文本无关说话人识别系统的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年
7 陈联武;郭武;戴礼荣;;说话人识别系统中多样训练的应用[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
8 崔玉红;胡光锐;;基于神经网络特征维数压缩方法及其在说话人识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
9 吴丽丽;;基于仿生模式识别的说话人识别学习模型研究[A];第二届中国科学院博士后学术年会暨高新技术前沿与发展学术会议程序册[C];2010年
10 张晶;董金明;冯文全;;说话人识别系统研究与实现[A];全国第二届信号处理与应用学术会议专刊[C];2008年
中国重要报纸全文数据库 前2条
1 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年
2 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
2 别凡虎;说话人识别中区分性问题的研究[D];清华大学;2015年
3 谢怡宁;基于稀疏编码的鲁棒说话人识别方法研究[D];哈尔滨理工大学;2016年
4 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年
5 刘镝;说话人识别中信息融合算法的研究[D];北京交通大学;2011年
6 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年
7 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年
8 邱政权;在噪声环境下的说话人识别[D];华南理工大学;2007年
9 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
10 钱博;基于汉语元音映射的说话人识别技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 丛菡菡;基于支持相量机的稳键说话人识别[D];电子科技大学;2008年
2 任舒彬;面向手持应用的说话人识别算法研究[D];浙江大学;2006年
3 申志生;文本相关说话人识别嵌入式系统及其关键技术研究[D];河北工业大学;2011年
4 汪q,
本文编号:270520
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/270520.html