基于x-vector的说话人识别研究
发布时间:2020-06-07 12:33
【摘要】:为了提升说话人识别系统的性能,本文以x-vector系统为基础,结合卷积神经网络与注意力机制,着重分析基线系统存在的问题,并探索有效的解决方案。(1)采用卷积神经网络提取声学特征。在语音技术领域经常采用MFCC作为输入特征,而这种经验性特征存在一定问题。本文采用最原始的声学参数--语谱作为输入特征,其中含有更多的说话人原始性信息,同时,利用卷积神经网络(Convolutional Neural Network,CNN)的局部感知和权重共享的机制,对语谱进行自动优化并完成降维,避免了经验性特征计算所带来的信息损失。(2)注意力机制应用于统计层的计算。在x-vector统计层,直接计算帧特征的均值和标准差,默认每一帧的重要性相同,这种假设明显不合理。本文引入注意力机制来解决上述问题,主要采用两个方案:第一种方案是引入注意力层,即通过注意力层来增强关键帧的信息以及语音信号内部的关联性,并通过多头注意力来获取序列之间不同的依赖性;第二种方案是建立基于注意力的统计层,直接修改统计层的计算机制,计算加权均值和标准差,并与多头注意力相结合。(3)利用Kaldi语音工具平台在VoxCelebl数据集上进行实验。主要对比分析了不同声学特征以及不同的网络结构对系统性能的影响。实验结果显示,相比于x-vector基线系统,语谱结合CNN在EER(等错误率,Equal Error Rate)上相对降低6.5%,引入注意力层方案在EER上相对降低了 13.5%,而基于注意力的统计层方案在EER上则相对降低了25.5%。实验结果证实,本文所提出的:利用CNN从语谱直接提取并优化特征,及注意力机制改进x-vector统计层计算,方案合理且效果显著。
【图文】:
2.1说话人识别系统框架逡逑说话人识别是一种生物识别技术,需要对发音人的语音进行分析,从中提取逡逑说话人的信息,然后根据这些信息对说话人的身份进行判断。如图2-1所示,一个逡逑完整的说话人识别系统主要由以下三个模块组成:声学特征提取、说话人模型建逡逑立和训练、说话人识别和决策。逡逑说话人识别系统的具体工作流程主要分为三个步骤:逡逑(1)
即具有短时平稳性。这样就可以将其分成若干巾贞来进行分析,一般取10?30ms逡逑为一帧。如果不同帧是连续的,那么可能会存在帧之间的信息无法处理,因此为逡逑了避免这种情况的发生,在分巾贞时一般会让相邻巾贞之间有一段重叠部分,如图2_3逡逑所示,这样可以保持帧的连续性。逡逑U逦^_J逡逑I邋逦逦I逡逑第k帧丨帧移|逡逑U——^——?!逡逑第k+1帧逡逑图2-3语音信号分帧逡逑Figure2-3邋Framing邋operation邋of邋voice邋signals逡逑语音信号的分帧处理是通过窗函数来实现的,将该窗口在时间轴上进行移动,,逡逑即可完成分帧加窗处理。常用的窗函数有两种,一种是矩形窗,窗函数如下所示:逡逑,、fl,邋0<邋w<邋A^-l逡逑W(”)=邋k邋其他逦(2_2)逡逑另一种是汉明窗,窗函数如下所示:逡逑12逡逑
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN912.34;TP183
本文编号:2701425
【图文】:
2.1说话人识别系统框架逡逑说话人识别是一种生物识别技术,需要对发音人的语音进行分析,从中提取逡逑说话人的信息,然后根据这些信息对说话人的身份进行判断。如图2-1所示,一个逡逑完整的说话人识别系统主要由以下三个模块组成:声学特征提取、说话人模型建逡逑立和训练、说话人识别和决策。逡逑说话人识别系统的具体工作流程主要分为三个步骤:逡逑(1)
即具有短时平稳性。这样就可以将其分成若干巾贞来进行分析,一般取10?30ms逡逑为一帧。如果不同帧是连续的,那么可能会存在帧之间的信息无法处理,因此为逡逑了避免这种情况的发生,在分巾贞时一般会让相邻巾贞之间有一段重叠部分,如图2_3逡逑所示,这样可以保持帧的连续性。逡逑U逦^_J逡逑I邋逦逦I逡逑第k帧丨帧移|逡逑U——^——?!逡逑第k+1帧逡逑图2-3语音信号分帧逡逑Figure2-3邋Framing邋operation邋of邋voice邋signals逡逑语音信号的分帧处理是通过窗函数来实现的,将该窗口在时间轴上进行移动,,逡逑即可完成分帧加窗处理。常用的窗函数有两种,一种是矩形窗,窗函数如下所示:逡逑,、fl,邋0<邋w<邋A^-l逡逑W(”)=邋k邋其他逦(2_2)逡逑另一种是汉明窗,窗函数如下所示:逡逑12逡逑
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN912.34;TP183
【参考文献】
相关期刊论文 前1条
1 李富强 ,万红 ,黄俊杰;基于MATLAB的语谱图显示与分析[J];微计算机信息;2005年20期
相关会议论文 前1条
1 唐仕喜;李洪波;武光利;于洪志;;藏语语音合成系统韵律建模规律初步研究[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
相关博士学位论文 前1条
1 徐珑婷;基于稀疏分解的说话人识别技术研究[D];南京邮电大学;2017年
相关硕士学位论文 前3条
1 汪加林;基于用户偏好的深度学习推荐系统[D];华中科技大学;2018年
2 靳椺峗;驾驶环境下的麦克风阵列语音增强算法研究[D];北京交通大学;2018年
3 张德良;深度神经网络在中文语音识别系统中的实现[D];北京交通大学;2015年
本文编号:2701425
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2701425.html