基于DNN声学模型的说话人自适应方法研究

发布时间：2021-01-07 01:25

　　随着神经网络及语音识别的迅速发展,对语音识别中的说话人自适应技术的深入研究越来越受到重视。对基于DNN声学模型的说话人自适应方法展开研究,通过依据说话人的自适应数据,对声学模型进行自适应训练,从而提高声学模型对说话人的自适应能力,使得识别系统获得比没有自适应下更高的识别准确率。同时对自适应过程中的信道干扰进行研究,以提高系统的鲁棒性。总而言之,说话人自适应具有重要的研究价值。本文在对基于DNN声学模型的说话人自适应方法研究中,主要研究了对表征说话人身份（identity-vector,i-vector）特征训练及提取,为了减少信道差异带来的影响,对i-vector特征的信道补偿方法进行研究,而后,对DNN声学模型进行自适应训练方法进行研究。具体内容如下:首先,针对因自适应数据稀疏训练中出现过拟合问题,本文提出了一种基于奇异值分解（Singular Value Decomposition,SVD）的低维特征提取技术,给出了对DNN网络中的权重矩阵进行SVD分解公式以及相应的解析,利用该网络提取低维特征。另外,针对i-vector模型中总变换矩阵T训练与估计困难问题,给出改进后总变换矩阵T...

【文章来源】：西安电子科技大学陕西省 211工程院校教育部直属院校

【文章页数】：87 页

【学位级别】：硕士

【部分图文】：

激活函数图像

关系图,实际频率,关系图,频率

图 3.3 Mel 频率与实际频率关系图中的折线大致可以分为两段，在 1000Hz 一下 Mel 频率与实际频率呈线性 1000Hz 以上两者近似呈对数增长。符合我们人耳对于 1000Hz 以下的语音的还原原始语音源，而在 1000Hz 以上的语音会自动屏蔽。而提出来的特征，在嘈杂的环境中，我们人耳仍能正常地分辨各种语音信息，主要是耳蜗起作用。们耳蜗就有滤波的特性，同滤波器组的作用一样。语音信号中的信息大多集部分，高频部分容易收到噪声干扰，滤波器组在低频部分分布比较密集，在相对稀疏。如下是 MFCC 的提取流程图：预加重归一化分帧加窗差分FFTDCTMel滤波器组求对数能量信号CC特征

本文编号：2961621

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2961621.html

上一篇：回波信号处理方法研究及其在远程工业密度计中的应用
下一篇：基于自适应阈值选择的分布式多策略CFAR检测算法

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|