当前位置:主页 > 科技论文 > 网络通信论文 >

基于距离与相似性度量学习的说话人识别研究

发布时间:2020-04-08 20:19
【摘要】:说话人识别是以语音作为识别特征,采用机器学习方法对语音信息进行处理,自动进行识别说话人身份的技术。目前,基于I-vector模型的说话人识别模型性能良好,已经成为说话人识别领域中的主流模型。本文主要是对基于I-vector模型的说话人识别算法进行研究,并在此基础上引入距离与相似性度量学习算法。度量学习算法通过使得同类样本更紧凑,非同类样本更分散,提高说话人识别系统性能。本文主要研究KISS(Keep It Simple and Straightforward)与SUB-SML(intra-person Subspace Similarity Metric Learning)度量学习算法在说话人识别系统中的应用。KISS算法具备可利用大规模数据集和可扩展性等特点,通过引入等价约束关系学习度量矩阵,而且学习得到的度量矩阵可保证同类样本强相关。本文将KISS度量学习算法应用在说话人识别系统中,通过对i-vector向量进行KISS度量矩阵线性变换,减少信道差异和说话人个人内在变化对系统的影响。在NIST SRE 2014库上进行实验,分别使用余弦相似分类器和马氏距离分类器进行打分判别。实验结果表明KISS模型采用余弦相似分类器打分可以提高系统性能,而且采用采用马氏距离分类器打分系统性能提高更显著。此外,对KISS模型与PLDA模型进行得分融合实验,实验结果表明系统性能得到进一步提高。SUB-SML算法从保持相似性度量学习的鲁棒性和判别性两方面出发,提出在说话人个人子空间内学习训练度量矩阵,联合马氏距离度量和双线性相似性度量,形成广义的相似性度量学习。NIST SRE 2014库只提供训练样本的标签信息,所以需要为SUB-SML算法构造训练样本对集合。本文提出选取欧式距离最大的相似对和欧氏距离最小的非相似对构造训练样本对集合,使得训练得到的度量矩阵具备判别相似度低的同类样本以及相似度高的非同类样本能力。本文将SUBSML度量学习算法应用在说话人识别系统中,提出新方法构造SUB-SML算法的训练样本对集合,并且对i-vector向量进行SUB-SML度量矩阵线性变换。实验结果表明基于SUB-SML模型与基线i-vector模型相比系统性能有所提高,而且采用新方法构造的训练样本对集合的SUB-SML模型性能提高显著。SUB-SML算法联合马氏距离度量和双线性相似性度量,若只考虑马氏距离度量或双线性相似性度量,则分别得到SUB-ML和SUB-SL算法。本文将SUB-ML和SUB-SL度量学习算法分别应用到说话人识别中,实验在NIST SRE 2014年库上进行,结果表明这两种模型性能均优于传统余弦距离分类器模型。此外,还对SUB-ML模型与基于SUB-SL模型进行系统得分融合实验,实验结果表明融合后的系统性能比基于PLDA模型的系统性能更佳。
【图文】:

结构图,结构图,说话人,模式匹配


图 1-1:说话人识别系统结构图观察图 1-1 可知,说话人识别系统的关键阶段为:训练阶段和识别阶段。说话人模型的训练过程即建模,识别过程就是模式匹配的过程。由此得出,,要想提升说话人识别系统性能,需要从建立说话人模型和模式匹配两方面着手。从说话人模型角度出发,经典的 GMM-UBM[26](高斯混合模型-通用背景模

系统流程图,系统流程图,说话人确认


说话人确认系统流程图
【学位授予单位】:江西师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.3;TP181

【相似文献】

相关期刊论文 前10条

1 刘倩;李时;;细菌趋药性算法在说话人识别中的应用[J];宿州学院学报;2017年11期

2 赵艳;吕亮;赵力;;基于修正Fukunaga-Koontz变换的说话人识别方法[J];电子器件;2018年04期

3 李为州;杨印根;;说话人识别中基于深度信念网络的超向量降维的研究[J];电脑知识与技术;2017年22期

4 雷震春;万艳红;罗剑;朱明华;;基于Mahalanobis距离的说话人识别模型研究[J];中国语音学报;2016年00期

5 王华朋;李宁;许锋;蔡能斌;;基于元音共振峰特征的法庭说话人识别[J];中国刑警学院学报;2014年02期

6 王华朋;杨军;许勇;;应用似然比框架的法庭说话人识别[J];数据采集与处理;2013年02期

7 檀蕊莲;刘建平;;说话人识别技术的研究进展[J];科技资讯;2007年33期

8 宁飞,陈频;说话人识别的几种方法[J];电声技术;2001年12期

9 曹业敏,侯风雷,王炳锡;说话人识别技术现状与进展[J];河南科技;1998年09期

10 王华朋;杨军;吴鸣;许勇;;基于自适应同源方差控制的法庭自动说话人识别[J];应用科学学报;2014年06期

相关会议论文 前10条

1 孙帆;迟惠生;;循环网络说话人识别[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年

2 肖剑;欧贵文;;多层前馈神经网络组的文本无关说话人识别[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

3 吴玺宏;刘文举;;听神经计算模型及其在抗噪说话人识别中的应用[A];第六届全国人机语音通讯学术会议论文集[C];2001年

4 任舒彬;杨莹春;吴朝晖;;面向多通道说话人识别的预处理方法实验研究(类别:声纹鉴定)[A];第六届全国现代语音学学术会议论文集(下)[C];2003年

5 刘大力;赵力;;与文本无关说话人识别系统的性能比较[A];2004年全国物理声学会议论文集[C];2004年

6 张陈昊;郑方;王琳琳;;基于多音素类模型的文本无关短语音说话人识别[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年

7 周昊朗;王岚;陈珂;;一个面向说话人识别的汉语语音数据库[A];第六届全国人机语音通讯学术会议论文集[C];2001年

8 龙川;景新幸;杨海燕;;矢量量化与协方差矩阵结合的说话人识别方法[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年

9 周昊朗;王岚;吴玺宏;迟惠生;;一个面向说话人识别的汉语语音数据库[A];信号与信息处理技术——第一届信号与信息处理联合学术会议论文集[C];2002年

10 王波;王炳锡;徐毅琼;;基于多分类器的抗噪声说话人识别系统[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年

相关重要报纸文章 前2条

1 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年

2 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年

相关博士学位论文 前10条

1 徐珑婷;基于稀疏分解的说话人识别技术研究[D];南京邮电大学;2017年

2 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年

3 俞一彪;基于互信息理论的说话人识别研究[D];上海大学;2004年

4 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年

5 侯丽敏;基于非线性理论和信息融合的说话人识别[D];上海大学;2005年

6 雷震春;支持向量机在说话人识别中的应用研究[D];浙江大学;2006年

7 姚志强;说话人识别中提高GMM性能方法的研究[D];中国科学技术大学;2006年

8 包永强;噪声环境下说话人识别的研究[D];东南大学;2006年

9 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年

10 解焱陆;基于特征变换和分类的文本无关电话语音说话人识别研究[D];中国科学技术大学;2007年

相关硕士学位论文 前10条

1 刘乐;基于SlicedWasserstein距离的GMM-UBM说话人识别的研究[D];内蒙古大学;2019年

2 郭万鹏;基于深度学习的说话人识别技术研究[D];兰州理工大学;2019年

3 万艳红;基于距离与相似性度量学习的说话人识别研究[D];江西师范大学;2018年

4 李为州;深度学习与超向量在说话人识别中的应用[D];江西师范大学;2018年

5 徐钰婷;跨语言背景下基于单元音的说话人识别研究[D];深圳大学;2018年

6 陈莉芬;基于英语爆破音和摩擦音的跨语言说话人识别研究[D];深圳大学;2018年

7 易中曼;关于法庭说话人识别的评估[D];西南政法大学;2018年

8 郭慧阳;基于深度学习的说话人识别技术研究[D];厦门大学;2018年

9 杨楠;基于深度学习的说话人识别研究与实现[D];郑州大学;2019年

10 梅文星;说话人识别中通用背景模型研究及深度学习初探[D];浙江大学;2019年



本文编号:2619791

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2619791.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cc194***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com