当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的说话人识别算法

发布时间:2020-12-26 00:56
  说话人识别又称为声纹识别,是一门根据声纹特征来判断说话者身份的技术,广泛的应用于各个领域,具有很实用的研究价值。随着计算机硬件性能的提升,基于深度学习的声纹识别技术成为了主流方法之一,然而在深度学习任务中,往往是学习单一的说话人分类器模型来预测标签,又或者采用简单的相似度判决方法实现模型的匹配,导致最终训练出的声纹特征判别力不足,本文为了提取判别能力较强的声纹特征,通过对传统的损失函数进行改进,使得改进的损失函数监督训练出的网络模型能够有效的提高说话人识别精度。本文的工作内容如下:1.首先从稠密型网络(DenseNet)的最后一层隐藏层提取出说话人的低维特征,然后采用提出的ICTL,损失函数作为DenseNet最后一层隐藏层的目标函数,ICTL由三元组损失(Triplet Loss)和改进的三元组损失(ICL)组合而成,它们负责计算出最后一层隐藏层中提取的三元组特征之间的相似度损失,然后使用Softmax Loss计算出DenseNet最后一层分类层对应的三元组样本的预测身份与真实身份之间的误差损失。ICTL是Softmax Loss的辅助损失函数,通过ICTL对DenseNet最后一... 

【文章来源】:南昌大学江西省 211工程院校

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于深度学习的说话人识别算法


图2.5?CNN模型??

函数曲线图,激活函数,卷积,卷积核


?第2章说话人识别基本概述???数、池化层以及全连接层四部分构成,如图2.5所示。??r—?■分类??输入层?卷积层?泄化层?全连接1??激活函数??图2.5?CNN模型??(1)卷积层??卷积层由多个卷积核进行卷积操作,卷积核等同于一个特征提取器,每个卷??积核可以从单一的角度提取特征,其表达式如下:??0-1?/-I?、??(2-26)??y?y=o?/=〇?)??其中,x表示大小为MxiV的二维矩阵,>1;是/\/的卷积核,6表示偏置,/为??激活函数。??(2)激活函数??CNN中最常用的激活函数是ReLU函数t51],它可以有效地解决网络训练时??产生的梯度消失问题,其学习曲线如图2.6所示。??“?y??f(x)=x??/(■*)=〇?y/???????0?-V??图2.6?ReLU函数曲线图??(3)池化层??池化层通过池化操作可以缩减特征图的规模,从而有效降低网络参数的复??13??

三元组,学习过程,样本


?第2章说话人识别基本概述???从式(2.33)可以看出,Triplet?Loss?要求丨|/K)-/(xf)g?比||/(<)-/(x;)||;至少??要小于三元组才能产生损失值。??Deep?Speaker中三元组样本的学习过程可表示成图2.9的形式。??Negative?Positive??Learning??^??<??Anchor^?AnchoN^??Positive?Negative??图2.9三元组样本的的学习过程??值得注意的是,Deep?Speaker识别系统采用在线挖掘的方式生成三元组样本??对。在每一批输入样本中,根据每个样本对应的输出特征,进行三元组样本对的??选择,最后根据损失函数计算出当前误差。本文选择ResNet-34作为实验中的对??比模型。其中输入端选择160巾贞的Fbanks+A+A2作为模型的输入巾贞大小,对每中贞??提取64维的动静态特征信息,并堆叠成64x3的形式,ResNet-34模型最后一层隐??藏层输出的声纹特征为512维,批次大小设置为64。Deep?Speaker系统的训练??过程如图2.10所示。??BP算法??ResNet??声纹特征j?1??1???二兀组???ResNet内部丨一?最后一层隐藏层Triplet?Loss??图2.10?Deep?Speaker的训练流程??2.5.5?DenseNet??DenseNet的模型结构如图2.11所示。??17??

【参考文献】:
期刊论文
[1]基于深度学习的指纹识别方法研究[J]. 陈虹旭,李晓坤,郑永亮,袁烺,邵娜,杨磊,刘磊.  智能计算机与应用. 2018(03)
[2]基于改进的深度神经网络的说话人辨认研究[J]. 赵艳,吕亮,赵力.  电子器件. 2017(05)
[3]基于语音信号时变特性的说话人辨认[J]. 徐良军,费万春,张伟杰,鲁星星.  数字技术与应用. 2010(01)
[4]基于MFCC和LPCC的说话人识别[J]. 余建潮,张瑞林.  计算机工程与设计. 2009(05)
[5]几种人体生物特征的生物识别技术比较[J]. 吴作好,曾洁,邹娟,杨晓东,张尧.  现代电子技术. 2007(14)

硕士论文
[1]基于发音动作参数的说话人确认技术研究[D]. 张艳.上海师范大学 2018



本文编号:2938719

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2938719.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户47d08***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com