基于注意力机制的端到端语音识别技术研究
发布时间:2020-05-29 15:53
【摘要】:端到端(End to End)的连续语音识别系统是目前语音识别的热门研究方向。该系统中,基于循环神经网络的序列到序列模型被用于建立输入语音特征序列与输出音素(或字素)序列的映射关系。相比传统语音识别系统,该系统具有结构简洁、通用性强、不依赖语言学知识等优点。然而实验表明,端到端的语音识别系统的训练需要耗费更多的标注语料、计算资源和时间代价才能达到传统语音识别系统的性能员,因此调整模型结构和设计算法改进端到端语音识别系统是目前语音识别领域的研究热点。本文分别介绍基于连接时序序列分类算法和基于注意力机制的“编码-解码”模型(简称“注意力模型”)的端到端语音识别系统,并且在搭建基线系统基础上,围绕现有注意力模型存在的主要问题进行改进和创新,主要的工作和创新点如下:1.针对注意力模型参数规模庞大和训练过程中参数收敛速度慢的问题,将原有模型中循环神经网络使用的门循环单元(Gate Recurrent Unit,GRU)用最少门单元(Minimal Gate Unit,MGU)代替。MGU是通过简化在GRU的结构而得,具有与GRU相接近的时序建模能力并且含有更少参数。将模型中深层循环神经网络的基本单元替换后可以有效降低注意力模型的参数规模。实验结果表明,基于MGU的注意力模型相比原有模型在性能损失较小的情况下,能够有效降低训练时间。2.针对基于注意力模型的语音识别结果中音素与特征中的对齐不准确的问题,提出使用能自适应宽度的窗函数限定注意力范围方法,以及在计算系统特征的卷积神经网络中加入池化层。该方法首先,根据相近音素的实际发音长度估计窗口函数的宽度,缩小注意力的分布范围从而避免注意力分布在与当前音素不相关的特征区域;其次,计算系数特征的卷积神经网络,通过加入池化层能够降低网络输入的噪声干扰。实验结果表明,改进后模型识别结果中音素与特征的对齐准确度明显提升,系统的识别准确率也得到提高。3.针对注意力模型由于缺少有效初始化参数造成的识别准确低和训练迭代次数多的问题,提出一种结合瓶颈特征提取网络和注意力模型方法。该方法首先训练基于深度置信网络的瓶颈特征提取网络,并且将其被作为系统前端,为后端注意力模型提供区分性和鲁棒性更强的语音特征。其次,减少注意力模型中循环神经网络堆叠的层数,从而进一步降低迭代次数和参数规模。最后,改变瓶颈特征提取网络的输入和输出层规模并且对融合后的模型重新训练,提升系统的识别性能。进一步,提出采用基于连接时序分类算法作为目标函数训练瓶颈特征提取网络并且与注意力模型相结合,实现两种端到端模型相融合。实验结果表明,注意力模型在与瓶颈特征提取网络相结合后,识别准确率和训练速度均得到明显提升。
【图文】:
第三章 采用最少门单元的改进注意力模型段语音,打印出基线系统与采用“中心 1+系数特征”改进后模型识别出的音素与特征的对齐情况,如图 3.4 和图 3.5 所示。图中竖轴代表音素序列,,横轴表示语音特征的帧数,色块颜色深浅表示注意力系数大小。通过对比可以得到,原始注意力模型中未进行降采样,图 3.中横轴的帧数为图 3.4 中横轴帧数的 4 倍。图 3.4 中多次出现的捷克字母 S、E、M 被对齐至多个区域,出现注意力分散的情况。图 3.5 中捷克字母对应的特征集中在一个区域,注意力分布更为精确。
打印出基线系统与采用“中心 1+系数特征”改进后模型识别出的音素与特征的对齐情况,如图 3.4 和图 3.5 所示。图中竖轴代表音素序列,横轴表示语音特征的帧数,色块颜色深浅表示注意力系数大小。通过对比可以得到,原始注意力模型中未进行降采样,图 3.中横轴的帧数为图 3.4 中横轴帧数的 4 倍。图 3.4 中多次出现的捷克字母 S、E、M 被对齐至多个区域,出现注意力分散的情况。图 3.5 中捷克字母对应的特征集中在一个区域,注意力分布更为精确。图 3.4 基线系统的音素与特征对齐情况
【学位授予单位】:战略支援部队信息工程大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34
本文编号:2687150
【图文】:
第三章 采用最少门单元的改进注意力模型段语音,打印出基线系统与采用“中心 1+系数特征”改进后模型识别出的音素与特征的对齐情况,如图 3.4 和图 3.5 所示。图中竖轴代表音素序列,,横轴表示语音特征的帧数,色块颜色深浅表示注意力系数大小。通过对比可以得到,原始注意力模型中未进行降采样,图 3.中横轴的帧数为图 3.4 中横轴帧数的 4 倍。图 3.4 中多次出现的捷克字母 S、E、M 被对齐至多个区域,出现注意力分散的情况。图 3.5 中捷克字母对应的特征集中在一个区域,注意力分布更为精确。
打印出基线系统与采用“中心 1+系数特征”改进后模型识别出的音素与特征的对齐情况,如图 3.4 和图 3.5 所示。图中竖轴代表音素序列,横轴表示语音特征的帧数,色块颜色深浅表示注意力系数大小。通过对比可以得到,原始注意力模型中未进行降采样,图 3.中横轴的帧数为图 3.4 中横轴帧数的 4 倍。图 3.4 中多次出现的捷克字母 S、E、M 被对齐至多个区域,出现注意力分散的情况。图 3.5 中捷克字母对应的特征集中在一个区域,注意力分布更为精确。图 3.4 基线系统的音素与特征对齐情况
【学位授予单位】:战略支援部队信息工程大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34
【参考文献】
相关期刊论文 前3条
1 陈雷;杨俊安;王一;王龙;;LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法[J];信号处理;2015年03期
2 王一;杨俊安;刘辉;柳林;;基于层次稀疏DBN的瓶颈特征提取方法[J];模式识别与人工智能;2015年02期
3 李晋徽;杨俊安;王一;;一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用[J];计算机科学;2014年03期
本文编号:2687150
本文链接:https://www.wllwen.com/kejilunwen/wltx/2687150.html