多人对话场景下的说话人分割聚类研究

发布时间:2018-01-08 16:24

  本文关键词:多人对话场景下的说话人分割聚类研究 出处:《中国科学技术大学》2017年硕士论文 论文类型:学位论文


  更多相关文章: 说话人分割聚类 共识聚类 回归深度神经网络 长度规整的MAP算法 T_s准则 改进的T-Test度量距离


【摘要】:说话人分割聚类是对一段多人混合的连续语音自动切分,获得"什么时候谁在说话"这个信息的技术。当前在两人电话对话数据上,说话人分割聚类系统取得了很好的性能;但是在会议、电视广播多人对话等复杂场景下还是面临着很多挑战,存在的问题包括:一般说话人数不定且没有人数的先验信息;说话人交谈时轮换快,每个说话人的语音长度不定;语音中存在着多种多样的噪声等。如何有效的解决这些问题,提升分割聚类系统的鲁棒性成为重要的研究方向,也是本文主要的研究内容。本文针对电视多人访谈节目中说话人分割与聚类的问题进行研究,论文的主要工作和创新如下:第一,主流算法的融合改进。在论文第二章中,在典型的分割聚类算法的基础上,采用深度神经网络(Deep Neural Network,DNN)取代传统的贝叶斯信息量的方法来实现语音的分割,由于DNN强大的区分能力,提高了变化点检测的准确率;在聚类方面,采用了共识聚类的方法对多套系统进行融合,提高了类别的纯度,加强了初始模型的鲁棒性,从而降低了系统的错误率。第二,噪声环境下特征降噪。在论文第三章中,利用回归深度神经网络(Re-gression DNN)去拟合带噪音频的声学特征到干净音频的声学特征的映射函数,用这个回归网络提取出降噪后的特征削弱了噪声的信息,将该降噪特征用于分割聚类系统,降低了系统的错误率。进一步,利用共识聚类对降噪特征和原始特征系统进行融合,显著的提升了系统的性能。第三,时长鲁棒的类别模型训练算法。多说话人场景下,每个说话人的语音长度是不定的,在论文第四章中,针对传统的最大后验估计(Maximum A Posteriori,MAP)得到的类别模型受类别时长的影响导致模型参数偏移的问题,提出在MAP过程中,对相对因子根据时长进行规整,提高类别模型参数的时长鲁棒性。实验结果表明,对于归一化交叉似然比(Normalized Cross Likelihood Ratio,NCLR)和T-Test度量距离,规整后的类别模型带来了性能的提升。第四,高区分性的人数判定算法。在论文第五章中,围绕人数确定进行研究。在门限法确定人数的基础上,采用Ts准则确定人数,该准则无需在开发集设定门限,实验结果表明,Ts准则和门限法融合提升了人数确定的准确率。另外,将估计的语句类间类内分布的均值与开发集门限相结合,设定自适应的门限,提高了人数确定准确率。最后,提出一种改进的T-Test度量距离,改进的方法详尽的利用了似然比得分分布的统计信息,更具区分性,从而在人数确定上更加准确。
[Abstract]:Speaker segmentation and clustering of a multi person mixed continuous automatic speech segmentation, "who said" the information technology. The two people in what time the telephone conversation data, speaker segmentation and clustering system achieves good performance; but in the meeting, television broadcasting more complex scenes or dialogue faced with many challenges, the problems include: Speaking the number of unstable and not the number of prior information; the speaker spoke fast rotation, each speaker's voice length; there is a wide range of noise speech. How to solve these problems effectively, enhance the robustness of the clustering system has become an important research direction also, the main research content of this paper. This paper makes a research on the problem for many people in the chat show television speaker segmentation and clustering, the main work and innovation are as follows: first, To improve the integration of mainstream algorithms. In the second chapter, based on the typical clustering algorithm, using depth neural network (Deep Neural Network, DNN) method to replace the traditional Bayesian information quantity to achieve speech segmentation, the ability to distinguish between strong DNN, improve the accuracy of detecting change points in; by using the method of clustering, consensus clustering fusion of multiple sets of system, improve the purity of the category, strengthen the robustness of the initial model, which reduces the error rate of the system. Second, noise characteristics and noise reduction. In the third chapter, using regression neural network (Re-gression DNN) depth to acoustic features fitting noisy audio to the mapping function of acoustic characteristics of clean audio, using the regression network feature extraction of noise after weaken the noise information, the noise reduction features for clustering system, drop Low error rate of the system. Further, the noise characteristics and the original characteristics of the system are combined by using consensus clustering, significantly improved the performance of the system. Third categories of model training algorithm. When the length of robust multi speaker scenarios, each speaker's speech length is uncertain, in the fourth chapter, in view of the traditional the maximum a posteriori (Maximum A Posteriori, MAP) impact categories model obtained by category time leads the model parameter drift problem, proposed in the MAP process, the relative factor according to the length of regular, long robust increase class model parameters. The experimental results show that the normalized cross likelihood ratio (Normalized Cross Likelihood Ratio, NCLR) and T-Test metric distance, the normalized category model brings performance improvement. Fourth, the number of pairwise independence determining algorithm. In the fifth chapter, on the number of To determine the research. In determining the number of threshold method based on Ts criterion is used to determine the number, the criterion without in the development set threshold, the experimental results show that the Ts criterion and threshold fusion to improve accuracy of the number. In addition, the estimated statement between class mean and development class distribution within the set threshold the combination of setting the adaptive threshold, increase the number to determine accuracy. Finally, this paper proposes an improved T-Test distance measurement, the improved method in detail using the likelihood ratio statistics score distribution, more distinguishable, in order to determine the number more accurately.

【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.3

【相似文献】

相关期刊论文 前10条

1 刘文举,孙兵,钟秋海;基于说话人分类技术的分级说话人识别研究[J];电子学报;2005年07期

2 丁辉;唐振民;钱博;李燕萍;;易扩展小样本环境说话人辨认系统的研究[J];系统仿真学报;2008年10期

3 刘明辉;黄中伟;熊继平;;用于说话人辨识的评分规整[J];计算机工程与应用;2010年12期

4 陈雪芳;杨继臣;;一种三层判决的说话人索引算法[J];计算机工程;2012年02期

5 杨继臣;何俊;李艳雄;;一种基于性别的说话人索引算法[J];计算机工程与科学;2012年06期

6 何致远,胡起秀,徐光yP;两级决策的开集说话人辨认方法[J];清华大学学报(自然科学版);2003年04期

7 殷启新,韩春光,杨鉴;基于掌上电脑录音的说话人辨认[J];云南民族学院学报(自然科学版);2003年04期

8 吕声,尹俊勋;同语种说话人转换的实现[J];移动通信;2004年S3期

9 董明,刘加,刘润生;快速口音自适应的动态说话人选择性训练[J];清华大学学报(自然科学版);2005年07期

10 曹敏;王浩川;;说话人自动识别技术研究[J];中州大学学报;2007年02期

相关会议论文 前10条

1 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年

2 金乃高;侯刚;王学辉;李非墨;;基于主动感知的音视频联合说话人跟踪方法[A];2010年通信理论与信号处理学术年会论文集[C];2010年

3 马勇;鲍长春;夏丙寅;;基于辨别性深度信念网络的说话人分割[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

4 白俊梅;张树武;徐波;;广播电视中的目标说话人跟踪技术[A];第八届全国人机语音通讯学术会议论文集[C];2005年

5 索宏彬;刘晓星;;基于高斯混合模型的说话人跟踪系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年

6 罗海风;龙长才;;多话者环境下说话人辨识听觉线索研究[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年

7 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认快速算法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年

8 李经伟;;语体转换与角色定位[A];全国语言与符号学研究会第五届研讨会论文摘要集[C];2002年

9 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年

10 何磊;方棣棠;吴文虎;;说话人聚类与模型自适应结合的说话人自适应方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年

相关重要报纸文章 前3条

1 ;做一名积极的倾听者[N];中国纺织报;2003年

2 唐志强;不听别人说话,也能模仿其口音[N];新华每日电讯;2010年

3 黄惠慧(南京师范大学附属扬子中学);高考听力要求及对策[N];中国教育资讯报;2002年

相关博士学位论文 前10条

1 李洪儒;语句中的说话人形象[D];黑龙江大学;2003年

2 李威;多人会话语音中的说话人角色分析[D];华南理工大学;2015年

3 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年

4 郑建炜;基于核方法的说话人辨认模型研究[D];浙江工业大学;2010年

5 吕声;说话人转换方法的研究[D];华南理工大学;2004年

6 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年

7 玄成君;基于语音频率特性抑制音素影响的说话人特征提取[D];天津大学;2014年

8 李燕萍;说话人辨认中的特征参数提取和鲁棒性技术研究[D];南京理工大学;2009年

9 徐利敏;说话人辨认中的特征变换和鲁棒性技术研究[D];南京理工大学;2008年

10 王坚;语音识别中的说话人自适应研究[D];北京邮电大学;2007年

相关硕士学位论文 前10条

1 杨浩;基于广义音素的文本无关说话人认证的研究[D];北京邮电大学;2008年

2 史梦洁;构式“没有比X更Y的(了)”研究[D];上海师范大学;2015年

3 魏君;“说你什么好”的多角度研究[D];河北大学;2015年

4 解冬悦;互动韵律:英语多人冲突性话语中说话人的首音模式研究[D];大连外国语大学;2015年

5 朱韦巍;扬州街上话语气词研究[D];南京林业大学;2015年

6 蒋博;特定目标说话人的语音转换系统设计[D];电子科技大学;2015年

7 王雅丹;汉语反语研究[D];南昌大学;2015年

8 陈雨莺;基于EMD的说话人特征参数提取方法研究[D];湘潭大学;2015年

9 单燕燕;变音环境下鲁棒性说话人辨认关键技术研究[D];南京邮电大学;2015年

10 陈sネ,

本文编号:1397848


资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1397848.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4344b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com