基于序列记忆神经网络的藏语声学建模方法研究
发布时间:2020-08-09 22:40
【摘要】:随着深度学习的兴起,作为语音识别系统的核心部分,声学模型经历了从基于高斯混合模型声学建模到基于神经网络的声学建模的发展历程,其识别性能也取得了质的飞跃。藏语是我国一门重要的少数民族语言。与汉语、英语等主流语言相比,藏语作为一个小语种,藏语语音识别仍然面临许多挑战。在此背景下,本文从藏语声学模型的结构出发,展开了系统而全面的研究。一方面结合藏语和汉语的共同发音特点,优化建模单元,既提升了识别率,又解决了藏汉双语语音识别问题。另一方面,本文也提出了一些方法来增强声学模型的鲁棒性以及加快声学模型的训练速度。首先,本文研究了基于端到端技术的藏汉双语混合声学建模方法。在藏语语音识别任务上,分别探索不同建模单元对藏语声学模型的影响。在已有发音字典的情况下,本文将链接时序分类技术(Connectionist Temporal Classi-fication,CTC)与高斯混合模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden MarkovModel,GMM-HMM)、发音字典等先验知识结合起来,进一步优化端到端的声学模型,识别率获得进一步提升。在藏汉双语混合语音识别任务上,藏汉联合发音字典的缺乏使得传统的基于隐马尔科夫模型的声学建模方法不再适用。本文提出采用端到端的混合建模方法,以字取代音素作为建模单元,训练声学模型,共享隐层。然而,在资源稀少情况下,建模单元的稀疏性是声学建模过程中不可避免的问题。本文提出两种方法解决建模单元的稀疏性问题。其一,汉语音节取代汉字成为建模单元。其二,采用加噪算法来增加藏汉双语语音。实验证明,在藏汉混合识别任务上,基于上述方法的实验结果获得了明显提升。其次,针对低资源情况下端到端声学模型的鲁棒性问题,本文提出采用多任务学习的策略来增强声学模型的鲁棒性。分别采用音素、藏字作为多任务学习的候选。此外,本文还将基于CTC准则的多任务学习与交叉熵(Cross Entropy,CE)准则结合起来,采用绑定的三因子作为建模单元,以此作为附属任务进一步优化端到端的声学模型。实验结果证明,在藏语语音识别任务上,上述方法相比基于迁移学习的声学模型,藏字识别率获得明显提升。最后,本文提出采用前馈序列记忆网络(Feedforward Sequential Memory Net-works,FSMN)作为端到端的声学模型进一步加速声学模型训练。前馈序列记忆网络通过记忆块对时序信号的长时相关性建模,从而避免了循环神经网络双向记忆时间步耗时等待的问题。其具有抽头延迟结构的记忆模块使得基于前馈序列记忆网络的端到端的声学模型训练过程更加快速稳定。实验表明,在藏语语音识别任务上,上述方法在识别率下降0.19%的前提下,声学模型的训练速度提高了至少5倍以上。
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34;TP18
【图文】:
w逡逑式1.3中,条件概率P(X/\V)表示某个词模型生成观察序列X的概率,而P(W)逡逑则是词序列的先验概率,由数理统计得到。在图1.1中,声学模型(AcousticModel,逡逑AM)对尸(X/W)建模,而P(W)则是由语言模型(Language邋Model,LM)给出。逡逑如图1.1所示,信号预处理、AM、LM和识别器是语音识别系统的四大组成部分。逡逑训练语音逡逑t!._邋.邋*11卜.逦文本语料逡逑声学模型逦语言模型逡逑一 ̄?邋(vadTIi?)邋一 ̄?特征提取—?识别器——?识别文本逡逑测试语音逡逑图1.1语音识别基本框图逡逑信号预处理可以说是一个语音去噪增强并数字化的过程,将语音转换成计逡逑算机能够处理的数据格式。主要包括消除噪声干扰,提取特征以及特征规整等逡逑方面。在声学特征的提取过程中,首先通过预加重提升高频成分,然后基于语音逡逑信号的短时平稳性,我们对原始语音进行加窗分帧,得到短时间内的一个平稳逡逑信号,再将该平稳信号做快速傅里叶变换(Fast邋Fourier邋Transform,邋FFT)、三角逡逑滤波以及离散余弦变换等
w逡逑式1.3中,条件概率P(X/\V)表示某个词模型生成观察序列X的概率,而P(W)逡逑则是词序列的先验概率,由数理统计得到。在图1.1中,声学模型(AcousticModel,逡逑AM)对尸(X/W)建模,而P(W)则是由语言模型(Language邋Model,LM)给出。逡逑如图1.1所示,信号预处理、AM、LM和识别器是语音识别系统的四大组成部分。逡逑训练语音逡逑t!._邋.邋*11卜.逦文本语料逡逑声学模型逦语言模型逡逑一 ̄?邋(vadTIi?)邋一 ̄?特征提取—?识别器——?识别文本逡逑测试语音逡逑图1.1语音识别基本框图逡逑信号预处理可以说是一个语音去噪增强并数字化的过程,将语音转换成计逡逑算机能够处理的数据格式。主要包括消除噪声干扰,提取特征以及特征规整等逡逑方面。在声学特征的提取过程中,首先通过预加重提升高频成分,然后基于语音逡逑信号的短时平稳性,我们对原始语音进行加窗分帧,得到短时间内的一个平稳逡逑信号,再将该平稳信号做快速傅里叶变换(Fast邋Fourier邋Transform,邋FFT)、三角逡逑滤波以及离散余弦变换等
,,模[37],获得了巨大成功。而微软研宄院ndent,CD)的深度神经网络和隐马尔科模型在LVCSR任务上相比传统的主流G从此,DNN-HMM取代GMM-HMM成说语音识别性能的每一次飞跃,神经网度学习的声学建模逡逑首次被用于声学建模,识别性能相比G是一个层内无记忆,层间也无记忆的神经关信号,相邻帧之间的特征和类别也有过程中我们通常通过拼帧操作来获取上。此外,在基于DNN的声学建模过程的强制对齐操作。因此,基于DNN的声级别的标注信息。逡逑
本文编号:2787654
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34;TP18
【图文】:
w逡逑式1.3中,条件概率P(X/\V)表示某个词模型生成观察序列X的概率,而P(W)逡逑则是词序列的先验概率,由数理统计得到。在图1.1中,声学模型(AcousticModel,逡逑AM)对尸(X/W)建模,而P(W)则是由语言模型(Language邋Model,LM)给出。逡逑如图1.1所示,信号预处理、AM、LM和识别器是语音识别系统的四大组成部分。逡逑训练语音逡逑t!._邋.邋*11卜.逦文本语料逡逑声学模型逦语言模型逡逑一 ̄?邋(vadTIi?)邋一 ̄?特征提取—?识别器——?识别文本逡逑测试语音逡逑图1.1语音识别基本框图逡逑信号预处理可以说是一个语音去噪增强并数字化的过程,将语音转换成计逡逑算机能够处理的数据格式。主要包括消除噪声干扰,提取特征以及特征规整等逡逑方面。在声学特征的提取过程中,首先通过预加重提升高频成分,然后基于语音逡逑信号的短时平稳性,我们对原始语音进行加窗分帧,得到短时间内的一个平稳逡逑信号,再将该平稳信号做快速傅里叶变换(Fast邋Fourier邋Transform,邋FFT)、三角逡逑滤波以及离散余弦变换等
w逡逑式1.3中,条件概率P(X/\V)表示某个词模型生成观察序列X的概率,而P(W)逡逑则是词序列的先验概率,由数理统计得到。在图1.1中,声学模型(AcousticModel,逡逑AM)对尸(X/W)建模,而P(W)则是由语言模型(Language邋Model,LM)给出。逡逑如图1.1所示,信号预处理、AM、LM和识别器是语音识别系统的四大组成部分。逡逑训练语音逡逑t!._邋.邋*11卜.逦文本语料逡逑声学模型逦语言模型逡逑一 ̄?邋(vadTIi?)邋一 ̄?特征提取—?识别器——?识别文本逡逑测试语音逡逑图1.1语音识别基本框图逡逑信号预处理可以说是一个语音去噪增强并数字化的过程,将语音转换成计逡逑算机能够处理的数据格式。主要包括消除噪声干扰,提取特征以及特征规整等逡逑方面。在声学特征的提取过程中,首先通过预加重提升高频成分,然后基于语音逡逑信号的短时平稳性,我们对原始语音进行加窗分帧,得到短时间内的一个平稳逡逑信号,再将该平稳信号做快速傅里叶变换(Fast邋Fourier邋Transform,邋FFT)、三角逡逑滤波以及离散余弦变换等
,,模[37],获得了巨大成功。而微软研宄院ndent,CD)的深度神经网络和隐马尔科模型在LVCSR任务上相比传统的主流G从此,DNN-HMM取代GMM-HMM成说语音识别性能的每一次飞跃,神经网度学习的声学建模逡逑首次被用于声学建模,识别性能相比G是一个层内无记忆,层间也无记忆的神经关信号,相邻帧之间的特征和类别也有过程中我们通常通过拼帧操作来获取上。此外,在基于DNN的声学建模过程的强制对齐操作。因此,基于DNN的声级别的标注信息。逡逑
【参考文献】
相关期刊论文 前5条
1 袁胜龙;郭武;戴礼荣;;基于深层神经网络的藏语识别[J];模式识别与人工智能;2015年03期
2 李冠宇;孟猛;;藏语拉萨话大词表连续语音识别声学模型研究[J];计算机工程;2012年05期
3 姚徐;李永宏;单广荣;于洪志;;藏语孤立词语音识别系统研究[J];西北民族大学学报(自然科学版);2009年01期
4 郑方 ,张国亮 ,宋战江;Comparison of Different Implementations of MFCC[J];Journal of Computer Science and Technology;2001年06期
5 丁松;;坚持“务实”精神的语言学家——访中国社会科学院语言研究所名誉所长吕叔湘先生[J];世界汉语教学;1987年03期
相关博士学位论文 前1条
1 张仕良;基于深度神经网络的语音识别模型研究[D];中国科学技术大学;2017年
相关硕士学位论文 前3条
1 刘晓凤;藏语语音深度特征提取及语音识别研究[D];中央民族大学;2016年
2 袁胜龙;资源受限情况下基于ASR的关键词检索研究[D];中国科学技术大学;2016年
3 拉龙东智;藏语语音识别技术研究[D];西藏大学;2015年
本文编号:2787654
本文链接:https://www.wllwen.com/kejilunwen/wltx/2787654.html