深度学习语音识别系统中的自适应方法研究

发布时间:2020-11-20 11:10
   语音是最快速、便捷的人机交互方式,语音识别技术是人工智能的重要组成部分。随着深度学习技术的进步,语音识别在多数场景中取得了接近人类的识别准确率,但是在说话人带有方言和口音、复杂环境噪声和专业领域等特殊场景下,语音识别的准确率会显著下降,影响用户的使用体验。语音识别自适应技术是提升特殊场景下语音识别准确率的有效手段之一,因此一直是语音识别领域的研究热点。相比传统语音识别系统中的自适应技术,深度学习语音识别系统中的自适应存在着模型参数庞大,而数据量相对较少等特点,这使得深度学习语音识别系统中的自适应成为一个研究难题。本文针对这些难题,在声学模型在线自适应、低资源下声学模型离线自适应、无监督声学模型离线自适应和语言模型自适应方面开展了研究工作,并将研究成果应用于实际语音识别系统中。本文的研究工作依托科大讯飞股份有限公司所承担的科技部国家重点研发计划重点专项课题《未知场景下的语音识别与意图理解》(课题编号:2018AAA0102204)进行。本文的具体研究内容包括:研究了声学模型在线自适应技术。针对声学模型在线自适应对于实时性要求极高,并且因缺乏自适应训练数据而导致自适应效果有限等问题,本文提出了基于注意力机制的声学模型在线自适应方法。利用预先训练好的说话人识别模型抽取海量说话人的特征表达并进行聚类,得到一组说话人特征基向量作为外部记忆单元;利用注意力机制实时快速的从记忆单元中挑选与当前语音段最相近的说话人基向量,并加权得到当前语音帧所对应的说话人特征表达,用于声学模型在线自适应。在此框架的基础之上,我们引入了固定大小顺序遗忘编码机制,同时提出了多级门控连接机制、说话人分类目标辅助训练和残差向量说话人特征表达,进一步的提升了声学模型在线自适应的效果。我们分别在中文和英文语音识别两个代表性数据集上进行了实验,实验结果证明了该方法能够在基本不增加语音识别计算复杂度的情况下,大幅提升声学模型在线自适应的效果。研究了低资源下声学模型离线自适应技术。针对低资源下声学模型离线自适应容易过拟合而导致泛化能力差的问题,本文提出了基于多任务学习的说话人编码方法,以及基于奇异值分解和矢量量化的自适应方法。首先,针对传统基于说话人编码的自适应方法进行了分析并指出了其中的不足;其次,针对性的引入了额外的说话人分类目标对说话人编码向量进行多任务学习,以提升该方法对于新说话人的泛化能力;然后,将说话人编码向量扩展成说话人编码矩阵以增强自适应的作用,并使用基于奇异值分解的自适应参数初始化。同时,为了能够充分压缩自适应的参数量,引入了矢量量化技术,并同步进行矢量量化训练与自适应,以减少矢量量化所带来的效果损失。在真实的语音识别数据集上,这两种方法在低资源情况下均取得了更好的自适应效果。研究了无监督声学模型离线自适应技术。针对无监督声学模型离线自适应相比有监督自适应效果损失严重的问题,本文首先提出了利用人机交互过程中的用户确认文本来帮助提高自适应数据机器标注准确率的方法;然后提出了一种基于确认模型的声学置信度方法,通过设计多种统计特征用于置信度模型的训练,直接判断当前词是否识别正确,从而显著增强了置信度与语音识别准确率之间的相关度,使得通过该置信度方法可以更好的进行自适应数据的挑选,提升机器自动标注的准确率;最后,本文跳出了传统无监督自适应方法的束缚,提出了一种基于元学习的无监督自适应方法,直接以无监督自适应后的模型在测试集上的效果为训练目标,来对通用模型进行调整,使得经过元学习后的通用模型按照预设的自适应方法能够在测试集上获取最优的效果。实验结果表明,本文提出的方法均能大幅提升无监督声学模型自适应的效果。研究了语言模型自适应技术。针对语言模型自适应数据稀疏、缺乏有效的自适应方法的问题,本文提出了基于用户修改词的N-gram语言模型自适应方法,通过从用户修改行为中挖掘用户关键词并在解码过程中进行动态激励,实现了N-gram语言模型高效快速的自适应。在保证低误触发率的前提下,该方法大幅提升了用户关键词的识别准确率。针对领域信息未知情况下的神经网络语言模型的自适应难题,本文提出了基于无监督聚类的神经网络语言模型自适应方法,通过无监督聚类对训练文本数据进行划分并训练类别专属语言模型,并利用隐层共享机制缓解类别专属语言模型训练数据稀疏的问题。在解码过程中,通过动态挑选多个类别专属语言模型的输出概率进行加权,达到提高语言模型输出概率可信度的目的。在真实的语音识别数据集上验证了本文提出的方法的有效性。在上述研究工作的基础上,介绍了自适应技术在真实深度学习语音识别系统中的应用情况。针对语音输入法场景,本文设计了语音识别云服务中声学模型自适应的服务架构,包括声学模型的自适应训练模块和自适应后声学模型的解码模块。同时,设计了“即修即改”的语言模型快速自适应功能,使得系统在语音识别错误被用户修正后可以迅速学习改进。
【学位单位】:中国科学技术大学
【学位级别】:博士
【学位年份】:2020
【中图分类】:TN912.34;TP18
【部分图文】:

系统结构图,语音识别,系统结构,语音


表示语音特征向量序列的先验概率,在求解的过程中是一个常量,可??以忽略。p(Xlio)表示己知文本序列W的情况下输出特征向量叉的概率,这个??概率通常通过统计建模的方法来计算,用于描述此概率的模型被称为声学模型??(Acoustic?Model,?AM)。表不文本序列w出现的先验概率,用于描述此概率??的模型被称为语言模型(Language?Model,?LM)。由式1.2可知,一个完整的语音识??别系统包括特征提取器、声学模型、语言模型和解码器这四个部分,语音识别系??统的结构图如图1.1所示。下文分别介绍特征提娶声学模型和语言模型这三个??部分。??语音输么——?特征提取??解码器?^输出文本?????丰"??语音数据库〈—八声学模型(J?语言模型 ̄ ̄(文本数据库(??图1.1语音识别系统结构??由于语音信号本身是一个连续的时域信号,首先需要对其进行分帧处理,使??得连续语音信号可以表示成时间轴上的离散序列以方便建模。语音的相位信息??被证明对于语音识别来说并不起作用,同时语音的高频部分极易受到噪声等因??素的干扰,因此通常将语音信号通过傅里叶变换转换到频域后,再提取幅度谱相??关的特征。由于受到发音机制和声音传输信道时变特性的影响,语音信号本身??只具有短时的平稳性,为了使得特征具有高稳定性,每帧语音的长度不能选择??太长,通常选择25毫秒的窗长。同时为了不造成信息的丢失,相邻两帧之间要??有一定的重叠,帧间步长通常设置为1〇毫秒。在将每帧语音时域信号转变为频??域信号之后,为了减少高频部分起到的作用,使得特征具有更强的噪声鲁棒性,??通常会采用一组带宽不等的滤波器组来提取特征,这些滤波器在高

过程图,语音识别,计算能力,特征提取


第1章绪?论??输入音"?I??=,>模数转换二?去直流O?分帧?预加重《={)?加窗??—————'?nr'?—..————j?—5———??z??、?「 ̄ ̄:■-"■■-.???\7?|?:???—????(声学特征?>?差分系数々二f对数能量快速傅立叶变换??V???^??y??ZZZ:?|?,???飞=??(MFCC?>离散余弦变换卩=取对数伞Mel域滤波器组??图1.2?MFCC特征提取过程??使得GMM的训练过程变得非常简单和快速,在20世纪80年代时期计算能力??很差的情况下,提供了快速训练语音识别系统的可能。而到了深度学习时期,神??经网络模型并不需要考虑输入的特征各个维度之间是否独立,因此对于深度学??习语音识别系统来说,通常会直接釆用离散余弦变换之前的频谱特征,我们称之??为对数滤波器组能量(log?filterbank?energies)特征,简称为Filterbank特征。??从式1.2可以看出语音识别的主流做法是经典的模式识别问题,因此声学模??型和语言模型是一个语音识别系统的核心所在。当前主流的语音识别系统的声学??模型绝大多数都采用HMM来对连续语音信号进行时序建模。一个典型的HMM??包含有五个要素:1)观察特征向量序列叉二丨巧丨;2)状态集合0?=丨^丨;3)状??态转移矩阵A?=?{%}:?4)各状态输出概率分布集合B?=汍(〇;)};?5)初始状态??概率tt=?{ttJ。上述要素必须满足以下概率性质:??叫)彡??A(a〇彡0,?A彡0??r?(1.3)??/2aij?=?1,?/?bi(x)d

示意图,神经网络,卷积,声学模型


)??卷积神经网络的核心思想在于卷积和池化(pooling)两个操作。卷积操作的??连接方式是局部连接,因此可以获取对于局部结构信息的精确表达,而池化操??作则通过降低分辨率的方式,配合卷积操作克服局部信息本身不够稳定的问题。??通过对语谱图不断的进行卷积和池化操作,卷积神经网络看到的语音特征时间??和频域上的跨度不断增加,整个神经网络建模的尺度也逐渐的从局部变为整体。??这种从局部到整体的建模方式可以对语音特征中谐波、共振峰等信息进行非常??精确的建模,从而提升音素状态的区分性。图1.4给出了深度卷积神经网络结构??的示意图。由于递归神经网络和卷积神经网络分别从不同的角度来加强建模能??力,所以很多情况下我们会同时使用这两种结构来进行声学模型建模,结合的方??式包括级联或者并联等方式,例如文献(Sainathetal.,2015)中提出的CLDNN模??型框架取得了相比单独使用CNN和LSTM均更优的识别准确率。??Conv?Conv??y?rv、??5?v1!*?Co??y?Conv??■、丄」、、u’??32?32??图1.4深度卷积神经网络声学模型示意图??Transformer?神经网络结构是?Google?于?2017?年提出的(Vaswani?et?al.,2017),??最早被用于机器翻译任务,后来被推广到语音识别领域,迅速成为主流的声学??模型神经网络结构之一。图1.5给出了?Transformer结构的示意图,其核心思想在??于使用了一种自注意力(self-attention)机制代替卷积或者递归操作来实现对长时??上下文的建模,通过不断叠加前馈层和self-attention层,不断的增
【相似文献】

相关期刊论文 前10条

1 姚明海;方存亮;;多层校正的无监督领域自适应方法[J];中国图象图形学报;2019年09期

2 王晶莹;王作英;;利用隐空间投影算法的模型自适应方法[J];清华大学学报(自然科学版);2007年07期

3 尹继豪;姜志国;樊孝忠;;一种基于N元语法分布的语言模型自适应方法[J];北京航空航天大学学报;2008年11期

4 蔡俊亚;;一种基于服务构件模型的自适应方法[J];湖南师范大学自然科学学报;2011年01期

5 王镛根,张学峰;故障诊断的神经网络多重模型自适应方法[J];航空动力学报;1997年02期

6 高立群,王景才;参考模型自适应方法在主从对策中的应用[J];东北工学院学报;1991年03期

7 赵文仓;袁立镇;徐长凯;;基于鉴别模型和对抗损失的无监督域自适应方法[J];高技术通讯;2020年07期

8 丁亮;李颖;何彦青;;统计机器翻译领域自适应方法比较研究[J];情报工程;2016年04期

9 吴根清,郑方,金凌,吴文虎;一种在线递增式语言模型自适应方法[J];中文信息学报;2002年01期

10 魏绍凯,邝自强,张乐年,郑叔芳;由离散点绘制叶型高次曲线的自适应方法[J];汽轮机技术;1992年06期


相关博士学位论文 前10条

1 潘嘉;深度学习语音识别系统中的自适应方法研究[D];中国科学技术大学;2020年

2 彭彪;动边界非定常流动网格自适应模拟的研究[D];南京航空航天大学;2018年

3 张亮;自适应离散纵标屏蔽计算方法研究[D];华北电力大学(北京);2019年

4 盛华山;求解动力学方程的时间递进高效方法—算法设计、分析与应用[D];上海交通大学;2016年

5 刘建伟;肌电控制接口的自适应方法研究[D];上海交通大学;2016年

6 孙强;自适应间断Galerkin有限元方法的可压缩流数值模拟[D];南京航空航天大学;2017年

7 唐谦;基于点插值无网格法的高效高精度自适应分析研究[D];湖南大学;2014年

8 张斌;基于目标导向的角度自适应射线效应消除方法研究[D];华北电力大学(北京);2018年

9 苏荣锋;多重影响因素下的语音识别系统研究[D];中国科学院大学(中国科学院深圳先进技术研究院);2020年

10 王露笛;心律失常与心力衰竭智能诊断方法研究[D];北京邮电大学;2019年


相关硕士学位论文 前10条

1 方斌;语音识别中自适应方法的研究[D];中国科学院研究生院(计算技术研究所);1997年

2 梁奇;语言模型自适应方法在嵌入式系统中应用的研究[D];清华大学;2006年

3 毕朝阳;基于特征选择的领域自适应方法研究[D];华南理工大学;2019年

4 张兹钰;开采沉陷FDM模拟四面体网格几何自适应方法研究及应用[D];中国地质大学(北京);2019年

5 张碧秋;基于分层卷积特征的核相关滤波目标跟踪方法研究[D];南京邮电大学;2019年

6 谭虹;基于情景智能的工业互联网认知服务自适应研究[D];南京邮电大学;2019年

7 袁安安;基于坏单元指示子的p和hp自适应RKDG方法[D];南京邮电大学;2018年

8 杨凯;三维欧拉流动的基于伴随方程的网格自适应模拟[D];南京航空航天大学;2018年

9 何柳;基于策略的自适应软件运行时不确定性处理机制研究[D];西安电子科技大学;2018年

10 刘阳;不连续伽辽金时域有限元p自适应电磁分析技术研究[D];南京理工大学;2018年



本文编号:2891335

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2891335.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7c134***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com