基于深度学习的说话人识别研究
发布时间:2020-10-11 19:48
随着科学技术的发展,说话人识别在深度学习背景下不断有新突破和新进展。目前占主导地位的是以身份认证矢量I-vector为基础的说话人识别系统。本文重点研究了如何改进传统特征参数,以及如何通过深度学习对说话人识别建模这两个问题。从不同的输入类型和不同的神经网络两个方面出发,探究系统识别性能。研究如何利用深度学习消除人类感知语音和计算机处理语音之间的辨识偏差鸿沟,如何拉近计算机所能学习到的听觉特征和人所能感知的特征之间的距离,实现计算机更接近于基于理解的人类识别结果这一目标。基于以上研究重点,本文内容包括以下几个部分:(1)研究并改进了基于I-vector的说话人识别算法研究传统特征提取算法,设计并搭建了基于I-vector的说话人识别系统,分析现有的I-vector优缺点,在此基础上改进I-vector身份认证矢量的提取过程,为之后作为输入,和不同神经网络结构连接搭建说话人识别系统作铺垫。(2)研究了基于LSTM和DBN的说话人识别方法构建时序网络长短时记忆网络LSTM模型和静态的深度置信网络DBN的说话人识别模型,最优化设置网络参数值以及每一层网络的输入输出节点数,将普通特征参数和改进后的身份认证矢量作为输入,探讨不同层数的深度置信网络和不同特征参数类型组合后对说话人识别结果的影响。(3)研究了基于语谱图和CNN的说话人识别方法将不同语音段的语谱图通过一定的采样,统一至相同的大小,消除不同长度音频时序不同的问题,将之作为CNN的VGG网络和残差网络的输入,最优设置两个网络结构的层数和节点设置,进行说话人识别实验,探讨在CNN网络下能否使说话人识别系统性能得到提升。并且进行网络融合尝试,增加双层DNN网络,验证性能是否有提升。本文在研究了传统特征参数身份认证矢量的基础上,重点探究了深度学习的说话人识别建模问题,将传统特征和深层学习架构联系在一起,对不同特征之间的系统性能横向和纵向进行了对比,探究对说话人识别系统来说最优的特征参数,哪种参数能最大化保留说话人个性信息,更有身份辨识度,以及哪种神经网络结构最适合说话人识别系统。
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN912.34;TP181
【部分图文】:
图2-1?说话人识别系统框架??先通常在进行特征提取之前,都要对原始序列做一系列的预处理。用换(channel?conversion)、预加重(pre-emphasis)、重米样(resample)、)和力口窗(windowing)。??
第二章说话人识别研究概述关定义上来说,GMM是一种参数化(Paraodel),具备对实际数据极强的表征力,但强,其负面效应也会越明显:参数规模也动GMM的参数训练才能得到-个更加通或者几个小时的语音数据,都远远无法满足稀缺又容易让GMM出现过拟合(Over-fming因此,尽管一开始GMM在小规模的文本无框架的性能,但它却远远无法满足实际场
泛化能力急剧衰退。因此,尽管一开始GMM在小规模的文本无关数据集合上表??现出了超越传统技术框架的性能,但它却远远无法满足实际场景下的需求。??图2-2最初的目标用户模型训练??2000年,DA?Reynolds1121的团队提出了一种改进的方案:既然没法从目标??用户那里收集到足够的语音,那就可以从其他地方收集大量非目标用户的声音,??将这些非目标用户数据(声纹识别领域称为背景数据)混合起来充分训练出一个??GMM,这个GMM可以看作是对语音的表征,但由于它是从大量身份的混杂数??据中训练而成,它又不具备表征具体某位说话人身份的能力。??该混合GMM就是起到了类似的作用,它对语音特征在空间分布的概率模型??给出了一个良好的预先估计,不必再像过去那样从头开始计算GMM的参数??(GMM的参数估计是一种称为EM的迭代式估计算法),只需要基于目标用户的??数据在这个混合GMM上进行参数的微调即可实现目标用户参数的估计
【参考文献】
本文编号:2837037
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN912.34;TP181
【部分图文】:
图2-1?说话人识别系统框架??先通常在进行特征提取之前,都要对原始序列做一系列的预处理。用换(channel?conversion)、预加重(pre-emphasis)、重米样(resample)、)和力口窗(windowing)。??
第二章说话人识别研究概述关定义上来说,GMM是一种参数化(Paraodel),具备对实际数据极强的表征力,但强,其负面效应也会越明显:参数规模也动GMM的参数训练才能得到-个更加通或者几个小时的语音数据,都远远无法满足稀缺又容易让GMM出现过拟合(Over-fming因此,尽管一开始GMM在小规模的文本无框架的性能,但它却远远无法满足实际场
泛化能力急剧衰退。因此,尽管一开始GMM在小规模的文本无关数据集合上表??现出了超越传统技术框架的性能,但它却远远无法满足实际场景下的需求。??图2-2最初的目标用户模型训练??2000年,DA?Reynolds1121的团队提出了一种改进的方案:既然没法从目标??用户那里收集到足够的语音,那就可以从其他地方收集大量非目标用户的声音,??将这些非目标用户数据(声纹识别领域称为背景数据)混合起来充分训练出一个??GMM,这个GMM可以看作是对语音的表征,但由于它是从大量身份的混杂数??据中训练而成,它又不具备表征具体某位说话人身份的能力。??该混合GMM就是起到了类似的作用,它对语音特征在空间分布的概率模型??给出了一个良好的预先估计,不必再像过去那样从头开始计算GMM的参数??(GMM的参数估计是一种称为EM的迭代式估计算法),只需要基于目标用户的??数据在这个混合GMM上进行参数的微调即可实现目标用户参数的估计
【参考文献】
相关期刊论文 前8条
1 杨瑞田;周萍;杨青;;TEO能量与Mel倒谱混合参数应用于说话人识别[J];计算机仿真;2017年08期
2 林舒都;邵曦;;基于i-vector和深度学习的说话人识别[J];计算机技术与发展;2017年06期
3 欧国振;孙林慧;薛海双;;基于重组超矢量的GMM-SVM说话人辨认系统[J];计算机技术与发展;2017年07期
4 周雷;龙艳花;魏浩然;;一种新型的与文本相关的说话人识别方法研究[J];上海师范大学学报(自然科学版);2017年02期
5 杨莹春;邓立才;;基于GMM托肯配比相似度校正得分的说话人识别[J];清华大学学报(自然科学版);2017年01期
6 李燕萍;陶定元;林乐;;基于DTW模型补偿的伪装语音说话人识别研究[J];计算机技术与发展;2017年01期
7 ;COMBINATION OF PITCH SYNCHRONOUS ANALYSIS AND FISHER CRITERION FOR SPEAKER IDENTIFICATION[J];Journal of Electronics(China);2007年06期
8 ;A new frequency scale of Chinese whispered speech in the application of speaker identification[J];Progress in Natural Science;2006年10期
本文编号:2837037
本文链接:https://www.wllwen.com/kejilunwen/wltx/2837037.html