说话人确认中语音段差异建模相关问题的研究
[Abstract]:With the development of speaker recognition technology, long-term speaker recognition technology in complex channels has become more and more mature, which lays the foundation for its practicality. Among them, global segment difference modeling based on Gaussian mixture model-general background model is simple and convenient, and it can be applied to speaker recognition system. Cheng Zhong combines efficient back-end non-speaker difference compensation models, such as Probabilistic Linear Discriminant Analysis (PLDA), which has become the mainstream technology in the field of speakers since it was proposed. Session Variability is expressed by a fixed length low-dimensional vector, i.e. the segment difference vector. The segment difference vector contains differences beyond the pronunciation content, including non-speaker differences (mainly channel differences) and speaker differences. On the basis of segment difference vector, further modeling is needed to eliminate the influence of Speaker-Independent differences on speaker recognition. Therefore, the key problem of global segment difference modeling is to extract segment differences and compensate for non-speaker differences at the back end, so as to extract speakers who are helpful to speaker discrimination in speech segments. This paper focuses on the modeling of segment differences and the extraction and discrimination of speaker differences. The main contents are as follows: Firstly, global segment difference modeling can obtain the overall expression of segment differences in speech segments, but it neglects the detail differences in speech segments. In this paper, we propose a local segment difference modeling method to extract the local segment difference which can not be expressed by global segment difference modeling for speaker recognition. Gauss Local Difference Modeling and Dimensional Local Difference Modeling. Furthermore, in Dimensional Local Difference Modeling, we propose to bind the dimensions of acoustic features in different ways, and then extract the local segment differences in the bound dimension combination. There is a complementary ability between the two, so that we can fuse them separately at the system and model levels to achieve better performance than a single model. Second, in global segment difference modeling, when the speech segments used for testing and model training are consistent in text, the global segment difference is achieved. Modeling has good modeling ability for speech segment differences, such as text-independent for long speech segments and text-dependent speaker verification for short speech segments. Based on the idea of local segment difference modeling, we use the acoustic model based on deep neural network in speech recognition to cluster the phoneme states of speech frames and extract the phoneme-related local segment differences. In the modeling method, we adopt the mono-phoneme and tri-phoneme acoustic models respectively. On the basis of the local segment difference vectors extracted from different phonemes, we select the local segment difference vectors according to the phonemes contained in the test phonemes and use them to distinguish the speakers. Thus, we can distinguish the speakers with phoneme correlation and solve the problem of short-term speech. On the basis of phonemes, we further explore the use of speech recognition results to extract segment differences and identify speakers, improve the research of segment differences extraction and speaker discrimination based on pronunciation content. Thirdly, the backend channel compensation based on global segment differences model is the main channel. Streaming technology PLDA is a linear probability model. In this paper, we make a series of improvements to the backend channel compensation model. Firstly, for PLDA, we propose an equivalent score calculation model based on adaptive speaker model. Aiming at the phenomenon of different number of speech segments registered by different speakers and different degree of overlap between different speech segments of the same speaker in the task of multi-segment registered speaker, a model registration method based on the prior distribution parameters of speaker factors is proposed to replace the traditional posterior distribution parameters. In addition, on the basis of speaker adaptation model, channel adaptation is introduced. In each group of tests, the PLDA model is adapted to the channel space of the test speech segment, and then the score is calculated. In this way, we can take into account the specific information of different tests, thereby improving the performance. Secondly, we introduce the deep neural network to extract the nonlinear deep speaker information which exists in the global segment difference vector, and use it to discriminate the speaker, so as to improve the performance of the system.
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TN912.34
【相似文献】
相关期刊论文 前10条
1 谢贵武;杨继红;肖勇;闵刚;;基于语音分段的自适应时长调整算法[J];军事通信技术;2008年02期
2 樊建中;孙晴;杨永杰;;一种智能盲文学习机设计[J];现代电子技术;2010年05期
3 温洪昌;黄应强;傅贵兴;;单片机的多段语音组合录放系统设计[J];单片机与嵌入式系统应用;2011年10期
4 张剑;袁华强;;Rhetorical-State SVM在抽取式语音摘要中的应用[J];科学技术与工程;2013年21期
5 卢坚 ,毛兵 ,孙正兴 ,张福炎;一种改进的基于说话者的语音分割算法[J];软件学报;2002年02期
6 章文义,朱杰;几种无语音检测噪音估计方法的比较研究[J];计算机工程与设计;2003年10期
7 林鑫;陈桦;王开志;王继成;;语音驱动唇形自动合成算法[J];计算机工程;2007年17期
8 蔡铁;;基于在线单类支持向量机的自适应语音活动检测[J];深圳信息职业技术学院学报;2008年02期
9 章钊;郭武;;话者识别中结合模型和能量的语音激活检测算法[J];小型微型计算机系统;2010年09期
10 朱淑琴,裘雪红;一种精确检测语音端点的方法[J];计算机仿真;2005年03期
相关会议论文 前9条
1 田野;王作英;陆大金;;基于韵律结构信息的非语音拒识[A];第六届全国人机语音通讯学术会议论文集[C];2001年
2 徐明;胡瑞敏;黄云森;;基于音素识别的语音评价方法[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
3 王欢良;韩纪庆;李海峰;王承发;;面向嵌入式应用的小词汇量语音串识别系统[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 那斯尔江·吐尔逊;吾守尔·斯拉木;麦麦提艾力;;维吾尔语大词汇量连续语音识别研究——语音语料库的建立[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 简志华;王向文;;考虑帧间信息的语音转换算法[A];浙江省信号处理学会2012学术年会论文集[C];2012年
6 魏维;马海燕;;一种丢失语音信包重建的新算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
7 陈凡;罗四维;;一个实用语音开发应用系统的设计与实现[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 刘红星;戴蓓劏;陆伟;;基于图像增强方法的共振峰谐波能量参数的语音和端点检测[A];第九届全国人机语音通讯学术会议论文集[C];2007年
9 林爱华;张文俊;王毅敏;;基于肌肉模型的语音驱动唇形动画[A];第十三届全国图象图形学学术会议论文集[C];2006年
相关重要报纸文章 前5条
1 atvoc;数码语音电路产品概述[N];电子资讯时报;2008年
2 记者 李山;德用双音素改进人工语音表达[N];科技日报;2012年
3 中国科学院自动化研究所模式识别国家重点实验室 于剑邋陶建华;个性化语音生成技术面面观[N];计算机世界;2007年
4 江西 林慧勇;语音合成芯片MSM6295及其应用[N];电子报;2006年
5 ;与“小超人”对话[N];中国计算机报;2001年
相关博士学位论文 前10条
1 高伟勋;智能家居环境中个性化语音生成关键技术研究[D];东华大学;2015年
2 陈丽萍;说话人确认中语音段差异建模相关问题的研究[D];中国科学技术大学;2016年
3 陶冶;文本语音匹配的研究和应用[D];山东大学;2009年
4 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
5 李冬冬;基于拓展和聚类的情感鲁棒说话人识别研究[D];浙江大学;2008年
6 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
7 古今;语音感知认证的关键技术研究[D];中国科学技术大学;2009年
8 彭波;Internet上语音的鲁棒性传输研究[D];华南理工大学;2001年
9 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
10 应娜;基于正弦语音模型的低比特率宽带语音编码算法的研究[D];吉林大学;2006年
相关硕士学位论文 前10条
1 王明明;基于GMM和码本映射相结合的语音转换方法研究[D];西安建筑科技大学;2015年
2 印雪晨;宋词朗读呼吸信号和韵律时长研究[D];西北民族大学;2015年
3 邱一良;噪声环境下的语音检测方法研究[D];电子科技大学;2015年
4 朱俊梅;基于性别预分类的年龄自动估计研究[D];江苏师范大学;2014年
5 张占松;基于DSP的语音干扰方法研究与实现[D];北京交通大学;2016年
6 李鹏;基于系统融合的语音查询项检索技术研究[D];解放军信息工程大学;2015年
7 赵蓉蓉;基于计算听觉场景分析的单通道语音盲分离技术[D];太原理工大学;2016年
8 周慧;基于PAD三维情绪模型的情感语音转换与识别[D];西北师范大学;2009年
9 李尘一;基于联合得分的语音置信度评估系统的研究与设计[D];内蒙古大学;2006年
10 朱君波;PCA在语音检测中的应用研究[D];浙江工业大学;2004年
,本文编号:2181768
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2181768.html