DNN-HMM语音识别声学模型的说话人自适应

发布时间:2020-07-28 18:12
【摘要】:说话人自适应(Speaker Adaptation, SA)是语音识别中的关键技术,它利用少量自适应数据通过变换语音特征或修正声学模型来提高特定说话人的识别准确率。在传统基于高斯混合模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)的语音识别中,说话人自适应通常可以使识别错误率降低5%-30%,是提升系统性能的重要方法。近年来,随着深度神经网络(Deep Neural Network, DNN)被广泛应用于语音识别,DNN-HMM逐渐成为声学模型的主流配置。然而传统说话人自适应技术通常不能直接应用于该模型,而现有基于DNN-HMM的说话人自适应技术性能提升又不明显,研究适合DNN-HMM的说话人自适应方法成为了语音识别领域新的热点和难点。本文围绕在]DNN-HMM上实现快速、有效的说话人自适应,研究了基于多GPU的DNN快速训练和几种基于DNN的说话人自适应方法。具体如下: 首先,本文研究了基于多GPU加速DNN训练的若干技术途径,及一些优化DNN训练的方法。我们分析了DNN训练过程中用到的相关算法,将训练步骤分解成适合GPU并行处理的矩阵运算形式,并利用CUDA C高效实现了这些算法,在此基础上我们进一步提出权重逐次轮转以及分-合训练融合方法来在多GPU上加速DNN训练并取得了显著的效果。在TIMIT数据集上进行的音素识别验证实验表明,在基本保证识别准确率的前提下,优化后的DNN训练速度获得了明显提升。这为我们在大规模数据上进行基于DNN-HMM的说话人自适应相关研究奠定了基础。 而后,本文对基于说话人编码的特征域自适应方法进行了改进,提出一种基于说话人编码的模型域自适应方法。该方法克服了前者会引入规模较大的自适应变换网络的缺点,引入的额外参数较少,并且在层数较深,隐层节点较多的网络上可以取得显著优于前者的性能提升。我们还将总变化因子向量(i-Vector)技术引入该模型中,提出i-Vector表征说话人特性的编码方法,进一步改善了我们的自适应效果。相关实验表明我们提出的方法可以带来明显的识别准确率提升,是进行DNN-HMM声学模型说话人自适应的良好选择。 之后,本文将区分性训练准则引入到说话人自适应中,提出基于说话人编码的区分性自适应方法,提高了识别准确率。我们还基于联合训练的思想提出一种说话人相关DNN的区分性建模方法,进一步改善了系统性能,在Switchboard数据集上的实验表明相较于DNN基线系统,该方法最多可以使识别错误率降低约25%,是目前最有效的]DNN-HMM声学模型说话人自适应方法之一。 最后,本文将矩阵分解思想应用于说话人自适应,提出一种基于奇异值分解(Singular Value Decomposition, SVD)的说话人自适应方法,该方法利用SVD分解DNN权重,并使用奇异值表征说话人差异信息,这减少了进行说话人自适应时所需要更新的参数量,有效的减轻了过拟合问题,取得了良好的自适应效果。我们还融合了说话人编码和矩阵分解的思想,提出一种基于二者融合的自适应方法,相关实验表明该方法可以有效的减小说话人编码的维度和整个建模过程的计算复杂度,对于提升自适应效率具有重要意义。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TN912.34
【图文】:

维度,系统框架,声学特征


图1.1 LVCSR系统框架.的维度。提取良好的具有区分性的声学特征对于提升语音识别系统的性能至关重要。当前研究人员使用的声学特征主要包括:梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC) (Davis and Mermelstein, 1980,Zheng et al.,2001)、感知线性预测系数(Perceptual Linear Prediction, PLP) (Hermansky,1990)等,主要基于傅立叶变换(Fourier Transformation)、倒谱分析(CepstralAnalysis)和线性预测(Linear Prediction)技术,符合人耳的听觉感知特性。近年来,由于DNN技术在声学建模中的成功应用,保留Mer滤波器输出各维度之间的相关性的滤波器组特征(Filter Bank Feature) (Yu et al.,2013a)取得了成功的应用。除此以外,研究人员还陆续提出许多方法来对特征进行变换和降维,以提高声学特征的区分性和减小计算复杂度,主要包括主分量分析(Principal Component Analysis,PCA) (Viszlay et al.,2011)、线性判别分析(Linear Discriminant Analysis,LDA) (Haeb-Umbach and Ney, 1992)和异方差线

线性输入


不同的说话人只自适应训练该线性变换层。(Netoetal., 1995)中提出了线性输入网络(Linear Input Network,LIN))方法,如图1.3所示,该方法在输入特征层与第一个隐层之间又增加了一个线性变换层,首先训练一个SI的DNN网络,之后在自适应阶段对于每一个不同的说话人训练估计一个不同的变换网络来对不同的说话人的特征进行线性变换,使之适应原来的SI网络,该方法可以比较好的解决过拟合的问题,但由于增加的线性变换层位置的限制,其参数量是固定的,而不能自行根据需要进行更改。变换网络 输出层图1.3线性输入网络自适应方法.11

线性变换,输出层,隐层,说话人


LHN)方法,如图L4所示,与前者不同之处在于线性变换层被加在了最后一个隐层和输出层之间。同样受制于线性变换层的位置,需要更新的参数数量为最后一个隐层节点数目和输出层节点数目的乘积,通常在深层神经络声学模型中,该参数规模是比较大的,因此也比较容易出现过拟合的问题。同样类似的方法还有(Li and Sim, 2010)中提出的线性输出层网络(Linear Output

【参考文献】

相关期刊论文 前4条

1 陈方,高升;语音识别技术及发展[J];电信科学;1996年10期

2 郑方 ,张国亮 ,宋战江;Comparison of Different Implementations of MFCC[J];Journal of Computer Science and Technology;2001年06期

3 倪崇嘉;刘文举;徐波;;汉语大词汇量连续语音识别系统研究进展[J];中文信息学报;2009年01期

4 吴奎;宋彦;戴礼荣;;基于CUDA的GMM模型快速训练方法[J];数据采集与处理;2012年01期



本文编号:2773261

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2773261.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5ea0c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com