当前位置:主页 > 科技论文 > 网络通信论文 >

说话人识别系统的设计与研究

发布时间:2020-04-25 22:50
【摘要】:近些年来,机器学习的快速发展正在深度影响着人们的日常生活,其中人机交互是机器学习中的重点。在人机交互中,需要确定使用者身份并据此提供相应服务,而使用语音信息来达成这一效果是一个用户友好的选择,这便是说话人识别任务。本文围绕着构造鲁棒性强,识别效果好的说话人识别系统这一主题,提出了两种说话人识别系统。第一种是基于在线i-vector构造的说话人识别系统,该系统结合了i-vector模型和GMM-UBM系统的优点,在文本相关说话人识别任务上取得了优于ivector-PLDA基线系统的识别效果。第二种系统则是采用现在流行的深度学习技术,构造了两种基于神经网络的端到端说话人识别系统,在训练过程中达到了整体优化模型的效果,其中,基于Triplet代价函数的端到端说话人识别系统在短时的文本无关说话人测试集上取得了优于i-vector-PLDA基线系统的识别效果。
【图文】:

说话人识别,声纹,标量,信息


被称为一个负例 (Non-target Trial),因此说话人识别本质上可以被视为一个二分类问题。说话人识别技术所要解决的问题就是如何构造一个系统,准确有效地完成一系列的二分类任务。目前为止,通用的说话人识别的框架如图2 1所示:图 2 1 说话人识别系统基本框架对于使用一系列时域上的数字信号表达的语音片段,说话人识别系统首先要对其进行一系列预处理,将其转变为频域上的特征,再经由一些处理模块提取出声纹信息,最终将这些声纹信息作为打分模块的输入,计算出一个标量数值,即当前试验的分数— 7 —

示意图,提取过程,神经网络,说话人


深度神经网络的输入,神经网络输出层之前一层的激活向量作为作为代表这个说话人信息的向量,并对该说话人所有输入数据取这一层激活向量的平均值,即为这个说话人对应的 d-vector。如图2 3所示,为 d-vector 对应的深度神经网络结构的示意图。与 i-vector 模型类似,,d-vector 是对应于一个语音片段的说话人模型的向量表达,且其维度固定,可以直接通过计算余弦距离计算分数。另外在训练好网络模型之后,d-vector 的提取只需要将语音片段对应的声学特征输入神经网络进行前传,就可以直接从输出层得到对应的 d-vector,相比于 i-vector 的提取需要耗费大量的计算资源,d-vector的提取耗费的计算资源相对较少
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34;TP183

【相似文献】

相关期刊论文 前10条

1 刘倩;李时;;细菌趋药性算法在说话人识别中的应用[J];宿州学院学报;2017年11期

2 赵艳;吕亮;赵力;;基于修正Fukunaga-Koontz变换的说话人识别方法[J];电子器件;2018年04期

3 李为州;杨印根;;说话人识别中基于深度信念网络的超向量降维的研究[J];电脑知识与技术;2017年22期

4 雷震春;万艳红;罗剑;朱明华;;基于Mahalanobis距离的说话人识别模型研究[J];中国语音学报;2016年00期

5 王华朋;李宁;许锋;蔡能斌;;基于元音共振峰特征的法庭说话人识别[J];中国刑警学院学报;2014年02期

6 王华朋;杨军;许勇;;应用似然比框架的法庭说话人识别[J];数据采集与处理;2013年02期

7 檀蕊莲;刘建平;;说话人识别技术的研究进展[J];科技资讯;2007年33期

8 宁飞,陈频;说话人识别的几种方法[J];电声技术;2001年12期

9 曹业敏,侯风雷,王炳锡;说话人识别技术现状与进展[J];河南科技;1998年09期

10 王华朋;杨军;吴鸣;许勇;;基于自适应同源方差控制的法庭自动说话人识别[J];应用科学学报;2014年06期

相关会议论文 前10条

1 黄猛;唐琳;王雅芬;;说话人识别技术综述[A];第十三届全国信号和智能信息处理与应用学术会议论文集[C];2019年

2 孙帆;迟惠生;;循环网络说话人识别[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年

3 肖剑;欧贵文;;多层前馈神经网络组的文本无关说话人识别[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

4 吴玺宏;刘文举;;听神经计算模型及其在抗噪说话人识别中的应用[A];第六届全国人机语音通讯学术会议论文集[C];2001年

5 任舒彬;杨莹春;吴朝晖;;面向多通道说话人识别的预处理方法实验研究(类别:声纹鉴定)[A];第六届全国现代语音学学术会议论文集(下)[C];2003年

6 刘大力;赵力;;与文本无关说话人识别系统的性能比较[A];2004年全国物理声学会议论文集[C];2004年

7 张陈昊;郑方;王琳琳;;基于多音素类模型的文本无关短语音说话人识别[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年

8 周昊朗;王岚;陈珂;;一个面向说话人识别的汉语语音数据库[A];第六届全国人机语音通讯学术会议论文集[C];2001年

9 龙川;景新幸;杨海燕;;矢量量化与协方差矩阵结合的说话人识别方法[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年

10 周昊朗;王岚;吴玺宏;迟惠生;;一个面向说话人识别的汉语语音数据库[A];信号与信息处理技术——第一届信号与信息处理联合学术会议论文集[C];2002年

相关重要报纸文章 前2条

1 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年

2 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年

相关博士学位论文 前10条

1 徐珑婷;基于稀疏分解的说话人识别技术研究[D];南京邮电大学;2017年

2 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年

3 俞一彪;基于互信息理论的说话人识别研究[D];上海大学;2004年

4 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年

5 侯丽敏;基于非线性理论和信息融合的说话人识别[D];上海大学;2005年

6 雷震春;支持向量机在说话人识别中的应用研究[D];浙江大学;2006年

7 姚志强;说话人识别中提高GMM性能方法的研究[D];中国科学技术大学;2006年

8 包永强;噪声环境下说话人识别的研究[D];东南大学;2006年

9 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年

10 解焱陆;基于特征变换和分类的文本无关电话语音说话人识别研究[D];中国科学技术大学;2007年

相关硕士学位论文 前10条

1 陈松;基于VQ的室内说话人识别及FPGA实现研究[D];安徽理工大学;2019年

2 蔡国都;基于x-vector的说话人识别研究[D];北京交通大学;2019年

3 姜孝伟;说话人识别系统的设计与研究[D];上海交通大学;2018年

4 徐钰婷;跨语言背景下基于单元音的说话人识别研究[D];深圳大学;2018年

5 陈莉芬;基于英语爆破音和摩擦音的跨语言说话人识别研究[D];深圳大学;2018年

6 易中曼;关于法庭说话人识别的评估[D];西南政法大学;2018年

7 郭慧阳;基于深度学习的说话人识别技术研究[D];厦门大学;2018年

8 杨楠;基于深度学习的说话人识别研究与实现[D];郑州大学;2019年

9 梅文星;说话人识别中通用背景模型研究及深度学习初探[D];浙江大学;2019年

10 韩旭;噪声环境下基于RNN的说话人识别方法研究[D];哈尔滨理工大学;2019年



本文编号:2640776

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2640776.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c0d12***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com