基于Lattice-free MMI和迁移学习的藏语拉萨话声学模型研究
发布时间:2021-08-23 09:46
人类和机器进行语音交流,让机器听懂人类的语音,一直是人类长久以来的梦想。随着深度学习技术的应用,语音识别声学模型建模方式发生了巨大的变化。但相关的研究主要集中在英语和汉语普通话这样的数据资源充足的语言中,对于藏语这样的资源稀缺的语言研究较少。本研究首先建立TDNN-HMM藏语拉萨话语音识别基线系统,针对藏语拉萨话数据资源稀缺的问题,研究使用半正交因式分解TDNN-HMM声学模型对藏语拉萨话语音数据进行声学建模,提升复杂模型对于小数据集的建模能力。针对传统区分性训练需要进行两遍训练的问题,研究使用Lattice-free MMI准则进行声学模型训练,相比传统交叉熵准则训练的基线,获得14.5%的性能提升,同时解码速度更快。在此基础上研究数据增强和说话人自适应方法,提高低资源环境下藏语拉萨话语音识别系统的鲁棒性,进一步获得8%的性能提升。最后本研究通过迁移学习中的权重迁移方法,进行声学模型跨语言权重迁移,将汉语普通话半正交因式分解TDNN模型的隐层权重矩阵参数迁移到藏语拉萨话半正交因式分解TDNN模型中,研究隐层数量对迁移的影响,在之前实验基础上获得4.2%的性能提升,从而证明汉语普通话到...
【文章来源】:西北民族大学甘肃省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
GMM-HMM模型
图 2-7 DNN-HMM 声学模型模型中 DNN 具有很强的学习能力,HMM 则具有强大的序列化建模定声学特征后,DNN 的输出层节点计算 HMM 的某个状态后验。实-HMM 模型使用嵌入式维特比算法进行训练。DNN-HMM 模型中 DNGMM,但 DNN 和 GMM 共享音素绑定结构,同时需要 GMM-HMM齐标注,所以仍需要训练一个 GMM-HMM 模型。模型区分性训练大似然估计(MLE)训练速度快,方便简洁,语音识别通常使用最准则来进行模型训练。但最大似然估计准则只关心训练文本产生对应最大,忽略了模型的区分性,而区分性训练正是研究者针对最大似然不足而提出的,希望能得到较优的语音分类器。即最大似然估计更关模型参数用来表示训练数据的概率分布,区分性训练则是希望训练文
22于是可以将音素集按照以上四种情况进行位置音素扩充。图3-1 藏语拉萨话发音字典3.2 时延神经网络时延神经网络(TDNN)[48]是 Hinton 教授于 1989 年提出的一种人工神经网络,其目的是为了解决语音识别中传统方法 HMM 无法适应语音信号中的动态时域变化的问题。它对每个隐层的输出都在时域进行扩展,即每个隐层接收到的输入不仅是前一层在当前时刻的输出,还有前一层在之前和之后的某些时刻的输出,这样就能对更长的历史信息进行建模。而 DNN 通常通过拼接相邻帧来获得一定的上下文,但却不能获得更长时间的上下文信息,TDNN 第一层学到的上下文长度较短,随着层数的增加,越到上层学习到越多的上下文相关信息,这也被认为是卷积神经网络的前身。一个标准的 TDNN 结构如图 3-2 所示,第一层最左边的 5 个参数矩阵在时间维度上共享
【参考文献】:
期刊论文
[1]藏语拉萨话大词表连续语音识别声学模型研究[J]. 李冠宇,孟猛. 计算机工程. 2012(05)
[2]藏语连续语音语料库设计与实现[J]. 李永宏,于洪志,孔江平. 计算机工程与应用. 2010(13)
硕士论文
[1]基于深度学习的藏语拉萨方言语音识别的研究[D]. 张宇聪.西北师范大学 2016
本文编号:3357636
【文章来源】:西北民族大学甘肃省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
GMM-HMM模型
图 2-7 DNN-HMM 声学模型模型中 DNN 具有很强的学习能力,HMM 则具有强大的序列化建模定声学特征后,DNN 的输出层节点计算 HMM 的某个状态后验。实-HMM 模型使用嵌入式维特比算法进行训练。DNN-HMM 模型中 DNGMM,但 DNN 和 GMM 共享音素绑定结构,同时需要 GMM-HMM齐标注,所以仍需要训练一个 GMM-HMM 模型。模型区分性训练大似然估计(MLE)训练速度快,方便简洁,语音识别通常使用最准则来进行模型训练。但最大似然估计准则只关心训练文本产生对应最大,忽略了模型的区分性,而区分性训练正是研究者针对最大似然不足而提出的,希望能得到较优的语音分类器。即最大似然估计更关模型参数用来表示训练数据的概率分布,区分性训练则是希望训练文
22于是可以将音素集按照以上四种情况进行位置音素扩充。图3-1 藏语拉萨话发音字典3.2 时延神经网络时延神经网络(TDNN)[48]是 Hinton 教授于 1989 年提出的一种人工神经网络,其目的是为了解决语音识别中传统方法 HMM 无法适应语音信号中的动态时域变化的问题。它对每个隐层的输出都在时域进行扩展,即每个隐层接收到的输入不仅是前一层在当前时刻的输出,还有前一层在之前和之后的某些时刻的输出,这样就能对更长的历史信息进行建模。而 DNN 通常通过拼接相邻帧来获得一定的上下文,但却不能获得更长时间的上下文信息,TDNN 第一层学到的上下文长度较短,随着层数的增加,越到上层学习到越多的上下文相关信息,这也被认为是卷积神经网络的前身。一个标准的 TDNN 结构如图 3-2 所示,第一层最左边的 5 个参数矩阵在时间维度上共享
【参考文献】:
期刊论文
[1]藏语拉萨话大词表连续语音识别声学模型研究[J]. 李冠宇,孟猛. 计算机工程. 2012(05)
[2]藏语连续语音语料库设计与实现[J]. 李永宏,于洪志,孔江平. 计算机工程与应用. 2010(13)
硕士论文
[1]基于深度学习的藏语拉萨方言语音识别的研究[D]. 张宇聪.西北师范大学 2016
本文编号:3357636
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3357636.html