基于小波包全频分解的耐噪声纹识别算法
发布时间:2024-05-24 20:55
目前多数说话人识别算法均在干净环境下进行,在噪声环境下的效果较差.为提升噪声环境下说话人识别的正确率,提出一种新的特征提取方法与识别模型WPGT.利用小波包分解高频和低频信号,Gammatone滤波器组模拟人耳听觉系统处理非线性信号,从而提取更完备的说话人语音特征,采用卷积神经网络对特征进行训练并完成说话人识别.基于开源语音数据集、噪声融合数据集,将本研究方案与常用的声纹特征提取方法MFCC和Gammatone进行对比.实验结果表明,在噪声环境下,本研究所提WPGT方法的声纹识别精度相较于MFCC和Gammatone分别提升10.63%和16.91%,具有更好的抗噪声能力.
【文章页数】:8 页
【部分图文】:
本文编号:3981222
【文章页数】:8 页
【部分图文】:
图1本研究说话人识别总体框架
说话人声纹是一种生物特征信息,和人脸、指纹及虹膜一样具有典型可区分性.声纹识别是通过对语音波形中包含的个人信息自动识别说话人的过程.由于声带频率、声道宽窄、喉头大小、唇齿及鼻腔结构等发声器官因人而异,说话人的语音特征(或组合特征)具有唯一性.当前国内外的研究主要致力于说话人语音特....
图2三层小波包分解
小波包按照完全最优二叉树方式分解,节点对应小波包频率系数,顺序对应时域信息.本研究采用Daubechies小波包进行3层的dB6小波包分解,其树形结构如图2.三层小波包变换可分解出8个节点,每一次分解对应式(6)和式(7),小波包变换重构后的第i个频带频率作为Gammatone滤....
图3说话人识别卷积网络
为有效训练和预测说话人文本无关的语音特征信息,本研究结合所设计的特征提取方法,采用卷积神经网络设计说话人深度识别网络,如图3.在输入层将64个Gammatone滤波器重叠构成64通道滤波器组,实现耳蜗滤波功能,进而将语音信号由时域转换到频域,因此,每个说话人的语音信号就会在语音特....
图4纯净数据集上的声纹识别精度对比
第1组实验中在干净实验环境下,采用不同数据集比较以上3种语音特征提取算法的识别正确率,实验结果如图4所示.在输入层将64个Gammatone滤波器重叠构成64通道滤波器组,实现耳蜗滤波功能,进而将语音信号由时域转换到频域,因此,每个说话人的语音信号就会在语音特征处理之后得到64×....
本文编号:3981222
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3981222.html