说话人分割聚类中的建模方法研究
本文关键词:说话人分割聚类中的建模方法研究
更多相关文章: 说话人分割聚类 深度神经网络 全差异空间建模 说话人类内短时语音段差异建模 谱聚类
【摘要】:随着互联网时代的到来,以及大数据的发展,每天接受的信息大幅增长,这些信息中包含着电话通信、电视和网络等语音信息,同时随着科技的不断发展和电子设备的大量普及,有声邮件、语音搜索等在日常生活中扮演着越来越重要的角色。面对这些如雨后春笋般出现的信息,如何从中有效提取有用的信息,是目前研究的难点和热点。说话人分割聚类融合了多种音频处理技术,并能够实现对说话人类别和说话内容的精确管理,因此说话人分割聚类技术引起了众多学者的兴趣,比如麻省理工、法国LIMSI、剑桥、伯克利等已经展开研究,且取得了一定成果,但是说话人分割聚类中仍有几大难点难以解决,比如复杂场景下建模不准确、短时语音段表示不准确、聚类效率慢以及说话人数目确定困难等,本文针对这些问题展开研究,具体内容为以下几个方面:针对复杂场景下建模不准确的问题,论文将有监督的建模方法应用到说话人分割聚类中,利用深度神经网络替代传统建模方法提取语音信号中深层次的复杂信息,将输出节点中的音素状态作为建模初始类别数,并和全差异建模相结合,从而使音素特征和说话人特征有效地解耦,最终得到对语音段更加鲁棒性的表示,从而提高系统性能。对于短时语音段表示不准确的问题,论文提出了构造基于深度神经网络的说话人类内短时语音段差异建模的方法,通过对存在差异的短时语音段进行有效建模,补偿语音段之间的差异,减少干扰信息的负面影响,从而使得低维因子向量准确的包含语音段中的说话人信息,从而使得短时语音段能够更加准确地被表示。为了能够实现高效建模的目标,提高聚类效率,论文用谱聚类的方法代替原有的层次凝聚聚类,通过计算语音段间的距离,构造基于距离的关联矩阵,利用改进的Eigen gap方法寻找最优的聚类数目,确定语音段中的说话人数目,根据已经确定的类别数,通过对关联矩阵特征结构分布的分析,对分割后的语音段进行聚类。谱聚类的方法不仅解决了说话人数目难以确定的问题,而且聚类速度高于传统的层次凝聚聚类方法。利用本文提出的三种方法,能够有效解决目前说话人分割聚类中存在的难点,通过实验结果可以表明,系统性能有大幅提升。
【关键词】:说话人分割聚类 深度神经网络 全差异空间建模 说话人类内短时语音段差异建模 谱聚类
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.3
【目录】:
- 摘要5-6
- ABSTRACT6-13
- 第一章 绪论13-21
- 1.1 说话人分割聚类简介13-16
- 1.1.1 说话人分割聚类研究背景13-14
- 1.1.2 国内外研究现状14-16
- 1.2 NIST SRE数据库16-17
- 1.3 评价指标17-18
- 1.4 论文结构18-21
- 第二章 基于全差异空间的说话人分割聚类系统21-37
- 2.1 系统简介21
- 2.2 说话人分割与聚类21-26
- 2.2.1 贝叶斯信息准则22-23
- 2.2.2 说话人分割23-24
- 2.2.3 说话人聚类24-25
- 2.2.4 重分割25-26
- 2.3 模型训练26-30
- 2.3.1 高斯混合模型26-28
- 2.3.2 说话人自适应28-30
- 2.4 全差异空间30-33
- 2.5 iVector在说话人分割聚类中的应用33-34
- 2.6 实验34-35
- 2.7 本章小结35-37
- 第三章 基于DNN的全差异空间建模37-51
- 3.1 引言37
- 3.2 DNN-HMM声学建模37-44
- 3.2.1 受限玻尔兹曼机和深层置信网络训练算法38-41
- 3.2.2 DNN训练算法41-43
- 3.2.3 深度神经网络在声学模型中的应用43-44
- 3.3 全差异空间建模44-47
- 3.3.1 基于UBM的全差异空间建模44
- 3.3.2 基于DNN的全差异空间建模44-47
- 3.4 实验47-48
- 3.5 本章总结48-51
- 第四章 基于DNN的说话人类内短时语音段差异建模51-59
- 4.1 引言51
- 4.2 全差异空间建模存在的问题分析51-52
- 4.3 说话人类内短时语音段差异补偿和建模52-57
- 4.3.1 U矩阵估计53-54
- 4.3.2 说话人模型训练54-55
- 4.3.3 说话人模型补偿55-56
- 4.3.4 说话人身份识别测试56-57
- 4.4 实验57-58
- 4.5 本章小结58-59
- 第五章 谱聚类59-73
- 5.1 引言59
- 5.2 传统谱聚类简介59-65
- 5.2.1 NJW算法流程60
- 5.2.2 相似图介绍60-62
- 5.2.3 拉普拉斯图及其性质62-65
- 5.3 谱聚类在说话人分割聚类中的应用65-69
- 5.3.1 已知说话人数目65-68
- 5.3.2 未知说话人数目68-69
- 5.4 实验69-71
- 5.5 本章小结71-73
- 第六章 总结与展望73-77
- 6.1 论文工作总结73-75
- 6.2 后续工作计划75-77
- 参考文献77-81
- 致谢81-83
- 在读期间发表的学术论文与取得的研究成果83
【相似文献】
中国期刊全文数据库 前10条
1 丁辉;唐振民;钱博;李燕萍;;易扩展小样本环境说话人辨认系统的研究[J];系统仿真学报;2008年10期
2 刘明辉;黄中伟;熊继平;;用于说话人辨识的评分规整[J];计算机工程与应用;2010年12期
3 陈雪芳;杨继臣;;一种三层判决的说话人索引算法[J];计算机工程;2012年02期
4 杨继臣;何俊;李艳雄;;一种基于性别的说话人索引算法[J];计算机工程与科学;2012年06期
5 何致远,胡起秀,徐光yP;两级决策的开集说话人辨认方法[J];清华大学学报(自然科学版);2003年04期
6 殷启新,韩春光,杨鉴;基于掌上电脑录音的说话人辨认[J];云南民族学院学报(自然科学版);2003年04期
7 吕声,尹俊勋;同语种说话人转换的实现[J];移动通信;2004年S3期
8 董明,刘加,刘润生;快速口音自适应的动态说话人选择性训练[J];清华大学学报(自然科学版);2005年07期
9 曹敏;王浩川;;说话人自动识别技术研究[J];中州大学学报;2007年02期
10 王坚;;基于支撑向量选择的说话人自适应[J];中国新通信;2007年11期
中国重要会议论文全文数据库 前10条
1 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
2 金乃高;侯刚;王学辉;李非墨;;基于主动感知的音视频联合说话人跟踪方法[A];2010年通信理论与信号处理学术年会论文集[C];2010年
3 马勇;鲍长春;夏丙寅;;基于辨别性深度信念网络的说话人分割[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
4 白俊梅;张树武;徐波;;广播电视中的目标说话人跟踪技术[A];第八届全国人机语音通讯学术会议论文集[C];2005年
5 索宏彬;刘晓星;;基于高斯混合模型的说话人跟踪系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年
6 罗海风;龙长才;;多话者环境下说话人辨识听觉线索研究[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年
7 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认快速算法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
8 李经伟;;语体转换与角色定位[A];全国语言与符号学研究会第五届研讨会论文摘要集[C];2002年
9 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
10 何磊;方棣棠;吴文虎;;说话人聚类与模型自适应结合的说话人自适应方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国重要报纸全文数据库 前3条
1 ;做一名积极的倾听者[N];中国纺织报;2003年
2 唐志强;不听别人说话,也能模仿其口音[N];新华每日电讯;2010年
3 黄惠慧(南京师范大学附属扬子中学);高考听力要求及对策[N];中国教育资讯报;2002年
中国博士学位论文全文数据库 前10条
1 李洪儒;语句中的说话人形象[D];黑龙江大学;2003年
2 李威;多人会话语音中的说话人角色分析[D];华南理工大学;2015年
3 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
4 郑建炜;基于核方法的说话人辨认模型研究[D];浙江工业大学;2010年
5 吕声;说话人转换方法的研究[D];华南理工大学;2004年
6 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年
7 玄成君;基于语音频率特性抑制音素影响的说话人特征提取[D];天津大学;2014年
8 李燕萍;说话人辨认中的特征参数提取和鲁棒性技术研究[D];南京理工大学;2009年
9 徐利敏;说话人辨认中的特征变换和鲁棒性技术研究[D];南京理工大学;2008年
10 王坚;语音识别中的说话人自适应研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 杨浩;基于广义音素的文本无关说话人认证的研究[D];北京邮电大学;2008年
2 解冬悦;互动韵律:英语多人冲突性话语中说话人的首音模式研究[D];大连外国语大学;2015年
3 朱培;“什么X不X(的)”构式研究[D];扬州大学;2015年
4 肖泽苹;无线电对讲语音的说话人分割聚类研究[D];北京理工大学;2016年
5 王红恬;“宁可A,也不B”句式探析[D];陕西理工学院;2016年
6 李锐;基于因子分析的说话人分离技术研究[D];中国科学技术大学;2016年
7 张亚明;说话人性别识别和年龄估计的系统研制[D];华南理工大学;2016年
8 马悦;基于共振峰和信息成分的说话人比对研究[D];广东外语外贸大学;2016年
9 陆亮;多信道条件下的说话人认证[D];北京邮电大学;2010年
10 凌锦雯;基于多特征的说话人分割与聚类的研究[D];中国科学技术大学;2011年
,本文编号:609452
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/609452.html