当前位置:主页 > 科技论文 > 信息工程论文 >

基于因子分析的说话人分离技术研究

发布时间:2017-05-15 01:03

  本文关键词:基于因子分析的说话人分离技术研究,由笔耕文化传播整理发布。


【摘要】:高速发展的计算机水平和音频处理技术,使得人们对于从海量数据中获取到感兴趣的人声,越来越有需求。另一方面,如何对获取到的各类音频进行合理有效的管理,也是目前存在的一大挑战。在此背景下,为了满足上述需要,说话人分离这一关键技术应运而生,其主要涉及两个过程:说话人分割和说话人聚类。说话人分离系统几乎无任何可供参考的先验信息使用,容易受环境或者建模方法的影响,使得分割和聚类时说话人片段的类纯度得不到保证。另外,基于距离准则的层次聚类方式一旦出现聚类误差,会一直的向上传递。因此本文主要在说话人分割和聚类的建模方法以及类别提纯上展开了探索和研究,主要工作和创新点如下:第一,说话人分离前端语音端点检测(Voice Activity Detection, VAD)和类别提纯方面的研究。针对基线系统中存在的低能量语音难以召回以及噪声难以去除的情形,引入了深度学习的方法,在分离前端进行改进。针对层次聚类时出现聚类误差向上传递的情况,提出了基于贝叶斯信息准则(Bayesian Information Criterion, BIC)的短时类别提纯方法,削弱由层次聚类带来的误差向上传递的影响。实验结果表明,基于深度学习的语音端点检测,能有效的降低说话人分离时的虚警和漏警,并且降低说话人分离错误率,且基于短时BIC类别提纯的方法,能更新部分聚类错误的说话人片段,提高后续说话人聚类的类纯度。第二,说话人转折点检测建模方法的研宄。探索了基于深度神经网络(Deep Neural Network, DNN)的建模方法在说话人转折点检测中的应用,利用其强大的模型表达能力,提高说话人分割的准确性。实验结果表明,这种基于深度学习的转折点检测建模方法相比于传统的BIC建模方法,无论是在转折点检测的准确率和召回率,还是对整个系统的分离错误率(Diarization Error Rate, DER)来说,都获得了一定的效果提升。第三,说话人聚类时的因子分析建模方法研究。传统的以贝叶斯信息准则作为相似性度量的说话人分离技术,在短时对话的分离任务中能取得较好的效果,但是随着对话时长的增加,BIC的单高斯模型不足以描述不同说话人数据的分布,且层次聚类时区分相同说话人和不同说话人的门限值难以划定。针对此问题,本文尝试基于短时BIC和长时概率线性判别分析(Probabilistic LinearDiscriminant Analysis, PLDA)融合的方法,充分利用BIC在短时聚类的可靠性和PLDA在长时段上的优异区分性,来实现说话人聚类过程。实验表明,因子分析框架下的说话人信息建模方法能有效的降低说话人分离错误率,使得性能相对提升34.2%。第四,说话人聚类过程中的变分贝叶斯(Variational Bayesian, VB)调优方法研究。通过与因子分析框架下的全差异空间相结合,将传统的层次聚类方式转化为在保证最优化目标函数的前提下,对某个片段属于某个说话人的最大后验概率估计的一种软聚类方式。依据此方法,将层次聚类时因误差上传而出现错误的说话人片段进行重新调优,达到提高后续PLDA聚类的初始类纯度,进而降低说话人分离错误率。
【关键词】:说话人分离 贝叶斯信息准则 深度学习 因子分析 概率线性判别分析 变分贝叶斯
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.3
【目录】:
  • 摘要5-7
  • Abstract7-12
  • 第一章 绪论12-18
  • 1.1 研究背景及意义12-13
  • 1.2 国内外研究现状13-15
  • 1.2.1 说话人分割研究现状14-15
  • 1.2.2 说话人聚类研究现状15
  • 1.3 说话人分离中存在的问题15-16
  • 1.4 说话人分离系统性能评价指标16-17
  • 1.5 论文研究内容与安排17-18
  • 第二章 基于贝叶斯信息准则的说话人分离系统及其改进18-30
  • 2.1 引言18
  • 2.2 说话人分离系统框架18-23
  • 2.2.1 语音端点检测19
  • 2.2.2 说话人转折点检测19-21
  • 2.2.3 说话人层次聚类21-22
  • 2.2.4 说话人重分割22-23
  • 2.3 基线系统的实验结果与分析23-24
  • 2.4 基于深度学习的说话人分离前端语音端点检测24-26
  • 2.4.1 VAD实现流程24-25
  • 2.4.2 VAD后处理25
  • 2.4.3 实验结果与分析25-26
  • 2.5 基于短时贝叶斯信息准则的说话人提纯方法26-28
  • 2.5.1 说话人提纯26-27
  • 2.5.2 实验结果与分析27-28
  • 2.6 本章小结28-30
  • 第三章 基于深度学习的说话人转折点检测研究30-40
  • 3.1 引言30
  • 3.2 基于深度学习的转折点检测方法30-38
  • 3.2.1 深度学习简介30-31
  • 3.2.2 转折点检测网络训练过程31-36
  • 3.2.3 转折点检测测试过程36-38
  • 3.3 实验结果与分析38-39
  • 3.4 本章小结39-40
  • 第四章 因子分析框架下的说话人聚类研究40-54
  • 4.1 引言40
  • 4.2 因子分析方法的基本概念40-41
  • 4.3 说话人识别中的全差异空间建模41-44
  • 4.3.1 全差异空间训练43-44
  • 4.3.2 全差异空间得分计算44
  • 4.4 概率线性判别分析概述44-49
  • 4.4.1 概率线性判别分析的参数训练45-46
  • 4.4.2 概率线性判别分析得分计算46-49
  • 4.5 BIC和PLDA聚类融合系统49-51
  • 4.6 实验结果与分析51-53
  • 4.7 本章小结53-54
  • 第五章 基于变分贝叶斯调优的说话人聚类研究54-62
  • 5.1 引言54
  • 5.2 变分贝叶斯调优54-59
  • 5.2.1 变分贝叶斯简介55-57
  • 5.2.2 问题描述57-58
  • 5.2.3 变分法58-59
  • 5.2.4 算法具体流程59
  • 5.3 实验结果及分析59-61
  • 5.4 本章小结61-62
  • 第六章 总结与展望62-64
  • 6.1 论文工作总结62-63
  • 6.2 进一步研究工作63-64
  • 参考文献64-68
  • 致谢68-70
  • 攻读硕士学位期间发表的论文和参与的研究工作70

【相似文献】

中国期刊全文数据库 前10条

1 丁辉;唐振民;钱博;李燕萍;;易扩展小样本环境说话人辨认系统的研究[J];系统仿真学报;2008年10期

2 刘明辉;黄中伟;熊继平;;用于说话人辨识的评分规整[J];计算机工程与应用;2010年12期

3 陈雪芳;杨继臣;;一种三层判决的说话人索引算法[J];计算机工程;2012年02期

4 杨继臣;何俊;李艳雄;;一种基于性别的说话人索引算法[J];计算机工程与科学;2012年06期

5 何致远,胡起秀,徐光yP;两级决策的开集说话人辨认方法[J];清华大学学报(自然科学版);2003年04期

6 殷启新,韩春光,杨鉴;基于掌上电脑录音的说话人辨认[J];云南民族学院学报(自然科学版);2003年04期

7 吕声,尹俊勋;同语种说话人转换的实现[J];移动通信;2004年S3期

8 董明,刘加,刘润生;快速口音自适应的动态说话人选择性训练[J];清华大学学报(自然科学版);2005年07期

9 曹敏;王浩川;;说话人自动识别技术研究[J];中州大学学报;2007年02期

10 王坚;;基于支撑向量选择的说话人自适应[J];中国新通信;2007年11期

中国重要会议论文全文数据库 前10条

1 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年

2 金乃高;侯刚;王学辉;李非墨;;基于主动感知的音视频联合说话人跟踪方法[A];2010年通信理论与信号处理学术年会论文集[C];2010年

3 马勇;鲍长春;夏丙寅;;基于辨别性深度信念网络的说话人分割[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

4 白俊梅;张树武;徐波;;广播电视中的目标说话人跟踪技术[A];第八届全国人机语音通讯学术会议论文集[C];2005年

5 索宏彬;刘晓星;;基于高斯混合模型的说话人跟踪系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年

6 罗海风;龙长才;;多话者环境下说话人辨识听觉线索研究[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年

7 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认快速算法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年

8 李经伟;;语体转换与角色定位[A];全国语言与符号学研究会第五届研讨会论文摘要集[C];2002年

9 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年

10 何磊;方棣棠;吴文虎;;说话人聚类与模型自适应结合的说话人自适应方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年

中国重要报纸全文数据库 前3条

1 ;做一名积极的倾听者[N];中国纺织报;2003年

2 唐志强;不听别人说话,也能模仿其口音[N];新华每日电讯;2010年

3 黄惠慧(南京师范大学附属扬子中学);高考听力要求及对策[N];中国教育资讯报;2002年

中国博士学位论文全文数据库 前10条

1 李洪儒;语句中的说话人形象[D];黑龙江大学;2003年

2 李威;多人会话语音中的说话人角色分析[D];华南理工大学;2015年

3 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年

4 郑建炜;基于核方法的说话人辨认模型研究[D];浙江工业大学;2010年

5 吕声;说话人转换方法的研究[D];华南理工大学;2004年

6 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年

7 玄成君;基于语音频率特性抑制音素影响的说话人特征提取[D];天津大学;2014年

8 李燕萍;说话人辨认中的特征参数提取和鲁棒性技术研究[D];南京理工大学;2009年

9 徐利敏;说话人辨认中的特征变换和鲁棒性技术研究[D];南京理工大学;2008年

10 王坚;语音识别中的说话人自适应研究[D];北京邮电大学;2007年

中国硕士学位论文全文数据库 前10条

1 杨浩;基于广义音素的文本无关说话人认证的研究[D];北京邮电大学;2008年

2 史梦洁;构式“没有比X更Y的(了)”研究[D];上海师范大学;2015年

3 魏君;“说你什么好”的多角度研究[D];河北大学;2015年

4 解冬悦;互动韵律:英语多人冲突性话语中说话人的首音模式研究[D];大连外国语大学;2015年

5 朱韦巍;扬州街上话语气词研究[D];南京林业大学;2015年

6 蒋博;特定目标说话人的语音转换系统设计[D];电子科技大学;2015年

7 王雅丹;汉语反语研究[D];南昌大学;2015年

8 陈雨莺;基于EMD的说话人特征参数提取方法研究[D];湘潭大学;2015年

9 单燕燕;变音环境下鲁棒性说话人辨认关键技术研究[D];南京邮电大学;2015年

10 陈sネ,

本文编号:366560


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/366560.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b2572***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com