当前位置:主页 > 科技论文 > 信息工程论文 >

基于联结时序分类与注意力机制的端到端语音识别研究

发布时间:2020-04-23 14:50
【摘要】:随着指数级增长的语音数据不断产生,工业、农业、军事等领域对语音识别的需求与日俱增,对大规模语音信号精准高效的识别提出了更高要求。近几年,端到端语音识别成为语音识别领域研究的热门方向。相对于传统的隐马尔科夫混合模型,端到端语音识别模型一方面克服了隐马尔科夫混合模型中声学、发音、语言模型相对独立的问题,实现了全局统一优化;另一方面,无需进行状态的强制对齐与发音词典的构建,大大降低了模型构建的复杂性。论文紧紧围绕提高端到端语音识别的准确率与训练效率,着重对当前端到端语音识别的两种技术路线—基于联结时序分类(Connectionist Temporal Classification,CTC)、基于注意力机制(Attention)的端到端语音识别展开研究。主要工作和创新如下:1.针对基于CTC语音识别模型中循环神经网络造成的训练周期过长及模型深度不足的问题,认真分析群残差卷积网络和序列批标准化,创新性地将群残差卷积网络运用于构建CTC语音识别模型,构建了基于群残差卷积网络的CTC语音识别模型—GRCNN-CTC。群残差卷积网络中深度所带来的广泛感受野与残差结构带来的快速稳定收敛性,可以一定程度上代替循环神经网络对长时相关的语音特征进行时序建模。实验结果表明,构建的群残差卷积CTC网络模型在提高识别准确率的同时能够大大缩短训练周期。2.针对基于注意力机制语音识别模型中解码器状态向量与编码器状态向量对齐精度不高、解码网络输入特征表征性不足、独热编码造成的泛化性能不佳等问题,采用三种技术提升注意力机制语音识别模型的识别性能与泛化能力。一是构建Multi-Head注意力机制技术支撑下的注意力机制语音识别模型—Multi-Head LAS。将状态向量映射至不同表征子空间,从多个维度去计算当前解码器状态向量与编码器状态向量的相关系数,获得了更为准确的对齐信息。二是采用Input-feeding方法改进解码器输入流,用前一时刻多层感知器的状态向量代替前一时刻上下文信息向量,改善输入特征表征能力。三是运用标签平滑归一化技术引入标签噪声对模型进行约束、降低模型过拟合程度。实验结果表明,运用三种技术改进的注意力机制端到端语音识别模型能够有效提升模型的识别性能与泛化能力。
【图文】:

框架图,语音识别,框架


语音识别模型主要划分为基于 DNN-HMM 的混合语音识别端到端语音识别模型又可划分为基于联结时序分类的语音别模型。近年来,国内外学者对语音识别三种主流分支深果。HMM 的语音识别研究现状合语音识别模型将语音识别过程分解为三个相对独立的模模[7]。如图 1.1 所示,时域下语音的波形信号通过提取特定量。给定长度为 的输入音频特征向量 ( ),语语言序列 ( ),即: ⊥ ( ) 概率分解成三个模型输出概率的乘积,如式(1.2)所示: ⊥ ∑( ) ( ) ⊥ ( ) ( ) ( )

流程图,特征提取,流程,倒谱系数


架等多项技术。音识别特征梅尔倒谱系数于人耳只关注部分特定的频率分量且听觉的敏感程度受声波频率的影响各不相同到高频按照临界带宽的大小由密到疏安排一组带通滤波器进行滤波操作,并将每的信号能量经进一步处理之后作为语音的输入特征。该特征不依赖信号的性质,入信号做任意的限制和假设,具有良好的鲁棒性和识别性。尔倒谱系数(Mel-scale Frequency Cepstral Coefficients, MFCCs)[63]在语音识别方应用。MFCCs 中,滤波器组按照梅尔标度对频率进行划分,,有效地刻画了人耳非式(2.1)所示。 ⊙( ) %

本文编号:2637850

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2637850.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6f6fc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com