深度学习语音识别系统中的自适应方法研究
【学位单位】:中国科学技术大学
【学位级别】:博士
【学位年份】:2020
【中图分类】:TN912.34;TP18
【部分图文】:
表示语音特征向量序列的先验概率,在求解的过程中是一个常量,可??以忽略。p(Xlio)表示己知文本序列W的情况下输出特征向量叉的概率,这个??概率通常通过统计建模的方法来计算,用于描述此概率的模型被称为声学模型??(Acoustic?Model,?AM)。表不文本序列w出现的先验概率,用于描述此概率??的模型被称为语言模型(Language?Model,?LM)。由式1.2可知,一个完整的语音识??别系统包括特征提取器、声学模型、语言模型和解码器这四个部分,语音识别系??统的结构图如图1.1所示。下文分别介绍特征提娶声学模型和语言模型这三个??部分。??语音输么——?特征提取??解码器?^输出文本?????丰"??语音数据库〈—八声学模型(J?语言模型 ̄ ̄(文本数据库(??图1.1语音识别系统结构??由于语音信号本身是一个连续的时域信号,首先需要对其进行分帧处理,使??得连续语音信号可以表示成时间轴上的离散序列以方便建模。语音的相位信息??被证明对于语音识别来说并不起作用,同时语音的高频部分极易受到噪声等因??素的干扰,因此通常将语音信号通过傅里叶变换转换到频域后,再提取幅度谱相??关的特征。由于受到发音机制和声音传输信道时变特性的影响,语音信号本身??只具有短时的平稳性,为了使得特征具有高稳定性,每帧语音的长度不能选择??太长,通常选择25毫秒的窗长。同时为了不造成信息的丢失,相邻两帧之间要??有一定的重叠,帧间步长通常设置为1〇毫秒。在将每帧语音时域信号转变为频??域信号之后,为了减少高频部分起到的作用,使得特征具有更强的噪声鲁棒性,??通常会采用一组带宽不等的滤波器组来提取特征,这些滤波器在高
第1章绪?论??输入音"?I??=,>模数转换二?去直流O?分帧?预加重《={)?加窗??—————'?nr'?—..————j?—5———??z??、?「 ̄ ̄:■-"■■-.???\7?|?:???—????(声学特征?>?差分系数々二f对数能量快速傅立叶变换??V???^??y??ZZZ:?|?,???飞=??(MFCC?>离散余弦变换卩=取对数伞Mel域滤波器组??图1.2?MFCC特征提取过程??使得GMM的训练过程变得非常简单和快速,在20世纪80年代时期计算能力??很差的情况下,提供了快速训练语音识别系统的可能。而到了深度学习时期,神??经网络模型并不需要考虑输入的特征各个维度之间是否独立,因此对于深度学??习语音识别系统来说,通常会直接釆用离散余弦变换之前的频谱特征,我们称之??为对数滤波器组能量(log?filterbank?energies)特征,简称为Filterbank特征。??从式1.2可以看出语音识别的主流做法是经典的模式识别问题,因此声学模??型和语言模型是一个语音识别系统的核心所在。当前主流的语音识别系统的声学??模型绝大多数都采用HMM来对连续语音信号进行时序建模。一个典型的HMM??包含有五个要素:1)观察特征向量序列叉二丨巧丨;2)状态集合0?=丨^丨;3)状??态转移矩阵A?=?{%}:?4)各状态输出概率分布集合B?=汍(〇;)};?5)初始状态??概率tt=?{ttJ。上述要素必须满足以下概率性质:??叫)彡??A(a〇彡0,?A彡0??r?(1.3)??/2aij?=?1,?/?bi(x)d
)??卷积神经网络的核心思想在于卷积和池化(pooling)两个操作。卷积操作的??连接方式是局部连接,因此可以获取对于局部结构信息的精确表达,而池化操??作则通过降低分辨率的方式,配合卷积操作克服局部信息本身不够稳定的问题。??通过对语谱图不断的进行卷积和池化操作,卷积神经网络看到的语音特征时间??和频域上的跨度不断增加,整个神经网络建模的尺度也逐渐的从局部变为整体。??这种从局部到整体的建模方式可以对语音特征中谐波、共振峰等信息进行非常??精确的建模,从而提升音素状态的区分性。图1.4给出了深度卷积神经网络结构??的示意图。由于递归神经网络和卷积神经网络分别从不同的角度来加强建模能??力,所以很多情况下我们会同时使用这两种结构来进行声学模型建模,结合的方??式包括级联或者并联等方式,例如文献(Sainathetal.,2015)中提出的CLDNN模??型框架取得了相比单独使用CNN和LSTM均更优的识别准确率。??Conv?Conv??y?rv、??5?v1!*?Co??y?Conv??■、丄」、、u’??32?32??图1.4深度卷积神经网络声学模型示意图??Transformer?神经网络结构是?Google?于?2017?年提出的(Vaswani?et?al.,2017),??最早被用于机器翻译任务,后来被推广到语音识别领域,迅速成为主流的声学??模型神经网络结构之一。图1.5给出了?Transformer结构的示意图,其核心思想在??于使用了一种自注意力(self-attention)机制代替卷积或者递归操作来实现对长时??上下文的建模,通过不断叠加前馈层和self-attention层,不断的增
【相似文献】
相关期刊论文 前10条
1 姚明海;方存亮;;多层校正的无监督领域自适应方法[J];中国图象图形学报;2019年09期
2 王晶莹;王作英;;利用隐空间投影算法的模型自适应方法[J];清华大学学报(自然科学版);2007年07期
3 尹继豪;姜志国;樊孝忠;;一种基于N元语法分布的语言模型自适应方法[J];北京航空航天大学学报;2008年11期
4 蔡俊亚;;一种基于服务构件模型的自适应方法[J];湖南师范大学自然科学学报;2011年01期
5 王镛根,张学峰;故障诊断的神经网络多重模型自适应方法[J];航空动力学报;1997年02期
6 高立群,王景才;参考模型自适应方法在主从对策中的应用[J];东北工学院学报;1991年03期
7 赵文仓;袁立镇;徐长凯;;基于鉴别模型和对抗损失的无监督域自适应方法[J];高技术通讯;2020年07期
8 丁亮;李颖;何彦青;;统计机器翻译领域自适应方法比较研究[J];情报工程;2016年04期
9 吴根清,郑方,金凌,吴文虎;一种在线递增式语言模型自适应方法[J];中文信息学报;2002年01期
10 魏绍凯,邝自强,张乐年,郑叔芳;由离散点绘制叶型高次曲线的自适应方法[J];汽轮机技术;1992年06期
相关博士学位论文 前10条
1 潘嘉;深度学习语音识别系统中的自适应方法研究[D];中国科学技术大学;2020年
2 彭彪;动边界非定常流动网格自适应模拟的研究[D];南京航空航天大学;2018年
3 张亮;自适应离散纵标屏蔽计算方法研究[D];华北电力大学(北京);2019年
4 盛华山;求解动力学方程的时间递进高效方法—算法设计、分析与应用[D];上海交通大学;2016年
5 刘建伟;肌电控制接口的自适应方法研究[D];上海交通大学;2016年
6 孙强;自适应间断Galerkin有限元方法的可压缩流数值模拟[D];南京航空航天大学;2017年
7 唐谦;基于点插值无网格法的高效高精度自适应分析研究[D];湖南大学;2014年
8 张斌;基于目标导向的角度自适应射线效应消除方法研究[D];华北电力大学(北京);2018年
9 苏荣锋;多重影响因素下的语音识别系统研究[D];中国科学院大学(中国科学院深圳先进技术研究院);2020年
10 王露笛;心律失常与心力衰竭智能诊断方法研究[D];北京邮电大学;2019年
相关硕士学位论文 前10条
1 方斌;语音识别中自适应方法的研究[D];中国科学院研究生院(计算技术研究所);1997年
2 梁奇;语言模型自适应方法在嵌入式系统中应用的研究[D];清华大学;2006年
3 毕朝阳;基于特征选择的领域自适应方法研究[D];华南理工大学;2019年
4 张兹钰;开采沉陷FDM模拟四面体网格几何自适应方法研究及应用[D];中国地质大学(北京);2019年
5 张碧秋;基于分层卷积特征的核相关滤波目标跟踪方法研究[D];南京邮电大学;2019年
6 谭虹;基于情景智能的工业互联网认知服务自适应研究[D];南京邮电大学;2019年
7 袁安安;基于坏单元指示子的p和hp自适应RKDG方法[D];南京邮电大学;2018年
8 杨凯;三维欧拉流动的基于伴随方程的网格自适应模拟[D];南京航空航天大学;2018年
9 何柳;基于策略的自适应软件运行时不确定性处理机制研究[D];西安电子科技大学;2018年
10 刘阳;不连续伽辽金时域有限元p自适应电磁分析技术研究[D];南京理工大学;2018年
本文编号:2891335
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2891335.html