基于DNN声学模型的说话人自适应方法研究
发布时间:2021-01-07 01:25
随着神经网络及语音识别的迅速发展,对语音识别中的说话人自适应技术的深入研究越来越受到重视。对基于DNN声学模型的说话人自适应方法展开研究,通过依据说话人的自适应数据,对声学模型进行自适应训练,从而提高声学模型对说话人的自适应能力,使得识别系统获得比没有自适应下更高的识别准确率。同时对自适应过程中的信道干扰进行研究,以提高系统的鲁棒性。总而言之,说话人自适应具有重要的研究价值。本文在对基于DNN声学模型的说话人自适应方法研究中,主要研究了对表征说话人身份(identity-vector,i-vector)特征训练及提取,为了减少信道差异带来的影响,对i-vector特征的信道补偿方法进行研究,而后,对DNN声学模型进行自适应训练方法进行研究。具体内容如下:首先,针对因自适应数据稀疏训练中出现过拟合问题,本文提出了一种基于奇异值分解(Singular Value Decomposition,SVD)的低维特征提取技术,给出了对DNN网络中的权重矩阵进行SVD分解公式以及相应的解析,利用该网络提取低维特征。另外,针对i-vector模型中总变换矩阵T训练与估计困难问题,给出改进后总变换矩阵T...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
激活函数图像
图 3.3 Mel 频率与实际频率关系图中的折线大致可以分为两段,在 1000Hz 一下 Mel 频率与实际频率 呈线性 1000Hz 以上两者近似呈对数增长。符合我们人耳对于 1000Hz 以下的语音的还原原始语音源,而在 1000Hz 以上的语音会自动屏蔽。而提出来的特征,在嘈杂的环境中,我们人耳仍能正常地分辨各种语音信息,主要是耳蜗起作用。们耳蜗就有滤波的特性,同滤波器组的作用一样。语音信号中的信息大多集部分,高频部分容易收到噪声干扰,滤波器组在低频部分分布比较密集,在相对稀疏。如下是 MFCC 的提取流程图:预加重归一化分帧加窗差分FFTDCTMel滤波器组求对数能量信号CC特征
本文编号:2961621
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
激活函数图像
图 3.3 Mel 频率与实际频率关系图中的折线大致可以分为两段,在 1000Hz 一下 Mel 频率与实际频率 呈线性 1000Hz 以上两者近似呈对数增长。符合我们人耳对于 1000Hz 以下的语音的还原原始语音源,而在 1000Hz 以上的语音会自动屏蔽。而提出来的特征,在嘈杂的环境中,我们人耳仍能正常地分辨各种语音信息,主要是耳蜗起作用。们耳蜗就有滤波的特性,同滤波器组的作用一样。语音信号中的信息大多集部分,高频部分容易收到噪声干扰,滤波器组在低频部分分布比较密集,在相对稀疏。如下是 MFCC 的提取流程图:预加重归一化分帧加窗差分FFTDCTMel滤波器组求对数能量信号CC特征
本文编号:2961621
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2961621.html