基于内容的x-vector文本相关SV研究
发布时间:2020-12-13 13:40
x-vector系统将一段不定长的语音通过神经网络映射成固定维的矢量来表征说话人信息,该系统在文本无关的说话人确认(Speaker verification,SV)任务中取得了优异的性能。本文将其应用到文本相关的SV任务中,在x-vector模型选择上,采用残差神经网络以获得更有区分性的x-vector;在包含多字符的语句中,对每个字训练一个残差神经网络;在提取过程中,每一字单独提取一个x-vector并单独进行说话人判决,最后将多个判决得分进行融合后给出最终的识别结果。实验是在数据库RSR2015PartⅢ上进行的,提出的方法在男性和女性测试集上等错误率分别有15.34%、19.7%的下降。
【文章来源】:数据采集与处理. 2020年05期 北大核心
【文章页数】:8 页
【部分图文】:
深度神经网络示意图
在文本相关的SV中,内容是很重要的一个区分性信息。前面所述的x?vector系统都是对一段语音进行统一的矢量提取,没有考虑内容对x?vector的影响。本文针对这种情况采用不同的数字分别训练残差神经网络并分别提取x?vector。基于内容的x?vector系统包含训练阶段和测试阶段,图2为说话人识别流程图。在说话人模型注册阶段,首先进行数据预处理:提取训练语料的30维梅尔频率倒谱系数(Mel frequency cepstral coefficient,MFCC)特征,并利用端点检测算法除去静音帧;再进行语料切分:利用语音识别模型将每条语料切割成若干数字,由于声音信噪比高,采用高斯混合模型与隐马尔科夫模型(Gaussian mixture models and hidden markov model,GMM?HMM)模型已经能够获得很好的语音识别准确率;利用训练好的深度神经网络模型分别提取每个数字的x?vector,完成模型的注册。在测试阶段,数据预处理与训练阶段相同,提取注册语料和测试语料中各数字相应的x?vector,使用线性判别式分析(Linear discriminant analysis,LDA)、PLDA后端信道补偿算法获取各数字的得分,最后将测试语料各数字得分求和平均计算最终得分。图2中提取x?vector神经网络首先使用大量数据预训练得到一个初始网络,然后用训练集的每个不同的数字来训练得到10个与数字相关的神经网络。由于x?vector是与数字相关的,因此也用训练集的不同数字的x?vector来单独训练LDA、PLDA模型。
给定一条语料x,基于字的PLDA模型如下与式(5)不同的是,上式所有变量都是针对特定数字d,{μd,Vd,Σd}这些参数都是由其对应数字的归一化的x?vector训练,归一化过程如式(9)所示
【参考文献】:
期刊论文
[1]基于深度学习的语音识别技术现状与展望[J]. 戴礼荣,张仕良,黄智颖. 数据采集与处理. 2017(02)
本文编号:2914630
【文章来源】:数据采集与处理. 2020年05期 北大核心
【文章页数】:8 页
【部分图文】:
深度神经网络示意图
在文本相关的SV中,内容是很重要的一个区分性信息。前面所述的x?vector系统都是对一段语音进行统一的矢量提取,没有考虑内容对x?vector的影响。本文针对这种情况采用不同的数字分别训练残差神经网络并分别提取x?vector。基于内容的x?vector系统包含训练阶段和测试阶段,图2为说话人识别流程图。在说话人模型注册阶段,首先进行数据预处理:提取训练语料的30维梅尔频率倒谱系数(Mel frequency cepstral coefficient,MFCC)特征,并利用端点检测算法除去静音帧;再进行语料切分:利用语音识别模型将每条语料切割成若干数字,由于声音信噪比高,采用高斯混合模型与隐马尔科夫模型(Gaussian mixture models and hidden markov model,GMM?HMM)模型已经能够获得很好的语音识别准确率;利用训练好的深度神经网络模型分别提取每个数字的x?vector,完成模型的注册。在测试阶段,数据预处理与训练阶段相同,提取注册语料和测试语料中各数字相应的x?vector,使用线性判别式分析(Linear discriminant analysis,LDA)、PLDA后端信道补偿算法获取各数字的得分,最后将测试语料各数字得分求和平均计算最终得分。图2中提取x?vector神经网络首先使用大量数据预训练得到一个初始网络,然后用训练集的每个不同的数字来训练得到10个与数字相关的神经网络。由于x?vector是与数字相关的,因此也用训练集的不同数字的x?vector来单独训练LDA、PLDA模型。
给定一条语料x,基于字的PLDA模型如下与式(5)不同的是,上式所有变量都是针对特定数字d,{μd,Vd,Σd}这些参数都是由其对应数字的归一化的x?vector训练,归一化过程如式(9)所示
【参考文献】:
期刊论文
[1]基于深度学习的语音识别技术现状与展望[J]. 戴礼荣,张仕良,黄智颖. 数据采集与处理. 2017(02)
本文编号:2914630
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2914630.html