基于深度神经网络的说话人识别研究
发布时间:2020-12-11 06:14
说话人识别,又称为声纹识别,是一种依据语音来判别说话人身份的技术。近些年随着互联网的快速发展和智能移动设备的普及,人脸识别、指纹识别和说话人识别等身份验证技术有了广阔的应用市场。说话人识别的核心是从语音中提取出能表征说话人身份的信息,深度神经网络因为具有强大的信息提取与建模能力,已经在计算机视觉、自然语言处理等领域得到广泛应用,将深度神经网络引入说话人识别领域是目前的研究热点。本文主要工作如下:首先,研究了基于深度神经网络的说话人识别系统,以梅尔频率倒谱系数作为语音的特征参数,搭建了基于深度长短期记忆网络(LSTM)的说话人识别系统作为基线系统。其次,研究了神经网络的复杂性对系统性能的影响,由于隐层层数和节点数目的改变会影响系统的识别效果,所以对不同层数和节点数的网络结构进行了识别率对比,进而选定网络结构,优化了识别系统。最后,与传统的说话人识别系统GMM-UBM进行了两方面的对比实验分析,验证了无论是在语音长度改变还是在说话者个数增加的情况下,基于LSTM模型的说话人识别系统的识别效果均优于传统模型。
【文章来源】:南昌大学江西省 211工程院校
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
图3.8网络模型的训练??3.4实验设计与分析??验的小对识果是重,进而到性能最优??
?第3章基于深度神经网络的说话人识别模型???在对比实验中,LSTM的层数设置为1、2、3、4、5,层节点设置为128、256,??得到10组网络模型。实验使用的是mini-batch梯度下降法,将batch?size设??置为50,梯度裁剪阈值设为5,采用深度学习优化器Adam,学习率经实验测试??后设置为0.?005,最大迭代次数为100,每组模型经过多次训练对结果取平均值,??得到系统识别率。如表3.?2所示:???表3.2不同网络结构的识别率???网络层数?1?2?3?4?5??128?78.13%?80.25%?82.76%?84.32%?85.01%??256?79.66%?81.62%?84.25%?85.37%?86.10%??LSTM不同层数和节点数的识>?别率对比??90-.???—layer?node?256??layer?node?128??88?-??78?-??76?-??1?2?3?4?5??网络层数??图3.9不同网络结构的识别率对比??从图3.9中可以看出,无论每层节点如何选择,随着神经网络层数的增加,??系统识别率会随之提升。层数相同时,增加每层的节点数,同样使系统识别率得??以提高。在一定程度上,隐藏层的增加和节点数的增多提高了神经网络的复杂性,??达到了提高识别率的效果,符合实验前的预期效果。??然而,神经网络的层数和每层的节点数并非越多就会带来识别效果的不断??提高。系统识别率随着层数增加,识别率的提升速度逐渐变缓,由于数据量一定,??过多增加层数及节点数会导致系统参数的大量增加,产生过拟合。??32??
?第4章实验设计与结果分析???不同语音长度下系统的识别效果对比??20?1???GMM-UBM???、?一?一?LSTM??18-??16??2?4?6?8?10??语音长度(2s>??图4.1两种说话人系统的等错误率对比??从图4.1和表4.1可以看到,不论是传统的GMM-UBM模型还是LSTM网??络模型,系统识别的等错误率都随着语音片段的增加而减校这是由于系统通过??短时语音片段无法学习到长时的变化特征,长时语音携带了说话人更为丰富的??信息,系统使用长时语音能使识别性能得到提高。??LSTM网络能够对时序数据进行全局化处理,具备串联远距离信息加以学习??的能力,增加语音的时序,网络的拟合能力会随着增强。由于LSTM拥有全局??化处理数据的优势,因而相较于GMM-UBM识别系统,在任意长度测试语音下??的识别性能均有明显优势,其中在8s时的识别效果提升的最快。??4.3基于说话人个数增加对识别率影响的对比??说话人识别的一大考验是用户数量增加带来的识别率下降。随着说话人个??数的增加,每个说话人个体语音之间的相对差异性会随之减小,增加了说话人识??别系统的识别的复杂性,使错误率增加,降低系统的识别效果。本实验以39维??MFCC作为特征输入,探宄传统的GMM-UBM模型和LSTM网络模型在说话人个数增??加下识别效果的表现。两种系统的实验结果分别如图4.?2和4.?3所示:??36??
本文编号:2910039
【文章来源】:南昌大学江西省 211工程院校
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
图3.8网络模型的训练??3.4实验设计与分析??验的小对识果是重,进而到性能最优??
?第3章基于深度神经网络的说话人识别模型???在对比实验中,LSTM的层数设置为1、2、3、4、5,层节点设置为128、256,??得到10组网络模型。实验使用的是mini-batch梯度下降法,将batch?size设??置为50,梯度裁剪阈值设为5,采用深度学习优化器Adam,学习率经实验测试??后设置为0.?005,最大迭代次数为100,每组模型经过多次训练对结果取平均值,??得到系统识别率。如表3.?2所示:???表3.2不同网络结构的识别率???网络层数?1?2?3?4?5??128?78.13%?80.25%?82.76%?84.32%?85.01%??256?79.66%?81.62%?84.25%?85.37%?86.10%??LSTM不同层数和节点数的识>?别率对比??90-.???—layer?node?256??layer?node?128??88?-??78?-??76?-??1?2?3?4?5??网络层数??图3.9不同网络结构的识别率对比??从图3.9中可以看出,无论每层节点如何选择,随着神经网络层数的增加,??系统识别率会随之提升。层数相同时,增加每层的节点数,同样使系统识别率得??以提高。在一定程度上,隐藏层的增加和节点数的增多提高了神经网络的复杂性,??达到了提高识别率的效果,符合实验前的预期效果。??然而,神经网络的层数和每层的节点数并非越多就会带来识别效果的不断??提高。系统识别率随着层数增加,识别率的提升速度逐渐变缓,由于数据量一定,??过多增加层数及节点数会导致系统参数的大量增加,产生过拟合。??32??
?第4章实验设计与结果分析???不同语音长度下系统的识别效果对比??20?1???GMM-UBM???、?一?一?LSTM??18-??16??2?4?6?8?10??语音长度(2s>??图4.1两种说话人系统的等错误率对比??从图4.1和表4.1可以看到,不论是传统的GMM-UBM模型还是LSTM网??络模型,系统识别的等错误率都随着语音片段的增加而减校这是由于系统通过??短时语音片段无法学习到长时的变化特征,长时语音携带了说话人更为丰富的??信息,系统使用长时语音能使识别性能得到提高。??LSTM网络能够对时序数据进行全局化处理,具备串联远距离信息加以学习??的能力,增加语音的时序,网络的拟合能力会随着增强。由于LSTM拥有全局??化处理数据的优势,因而相较于GMM-UBM识别系统,在任意长度测试语音下??的识别性能均有明显优势,其中在8s时的识别效果提升的最快。??4.3基于说话人个数增加对识别率影响的对比??说话人识别的一大考验是用户数量增加带来的识别率下降。随着说话人个??数的增加,每个说话人个体语音之间的相对差异性会随之减小,增加了说话人识??别系统的识别的复杂性,使错误率增加,降低系统的识别效果。本实验以39维??MFCC作为特征输入,探宄传统的GMM-UBM模型和LSTM网络模型在说话人个数增??加下识别效果的表现。两种系统的实验结果分别如图4.?2和4.?3所示:??36??
本文编号:2910039
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2910039.html