基于自适应学习和多尺度前向注意力的语音识别研究
发布时间:2024-03-17 01:24
作为一种能够将人类声音转化为文字的有效方法,语音识别(Automatic Speech Recognition,ASR)凭借自身的优势已在多个领域成为主要的技术手段。目前,基于端到端的深度学习(Deep Learning)方法被广泛的应用到ASR中,其中比较常用的有连接时序分类(Connectionist Temporal Classification,CTC)模型和拥有编解码结构的注意力(Attention)模型。这两种模型完全摆脱了传统方法的强制对齐,模型优化更直接且有更强的通用性。与CTC相比,注意力模型不需要帧的独立性假设,因而其性能更好。然而,由于注意力模型刚刚出现不久,因此对其广泛深入的研究还不够充分。为此,本文从如下两个方面对注意力模型展开研究:(1)考虑到基于注意力机制的语音识别系统网络结构比较复杂,当采用梯度下降算法进行反向传播时,会出现编码器更新能力较弱的问题。因此,针对编码器部分进行改进,通过在编码器后再加入新的CTC损失与注意力损失进行结合,形成基于多任务的学习。在多任务学习中,CTC和注意力两个任务的重要程度并不一致,因此在大规模语料库中通过手动调参确定这两个...
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
本文编号:3930303
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
图1-1端到端的语音识别系统
哈尔滨工业大学工学硕士学位论文-5-图1-1端到端的语音识别系统图1-2序列到序列模型图1-2的子图(a)为CTC模型。在无先验性对齐情况下,该模型能够度量输入和输出序列的相似度,并且能刻画语音特征和音素序列的相关性。基于CTC的语音识别系统由RNN编码模块和CTC损失函数模块组....
图1-3本文统识别
哈尔滨工业大学工学硕士学位论文-10-外研究现状,还详细描述如何搭建基于注意力机制的语音识别系统基线,分别在第1章、第2章介绍;第二部分是从编码器的角度利用CTC损失进行改进,并提出自适应多任务学习,这将在第3章介绍;第三部分,从注意力机制的角度提出前向注意力模型和多尺度模型,并....
图1-3本文的组织结构
哈尔滨工业大学工学硕士学位论文-10-外研究现状,还详细描述如何搭建基于注意力机制的语音识别系统基线,分别在第1章、第2章介绍;第二部分是从编码器的角度利用CTC损失进行改进,并提出自适应多任务学习,这将在第3章介绍;第三部分,从注意力机制的角度提出前向注意力模型和多尺度模型,并....
图2-2二维输入的有效卷积过程
哈尔滨工业大学工学硕士学位论文-16-假设输入的信号x是一维序列,即xnPù±,n是信号采样数;卷积滤波器mw,m是滤波器大小;y是卷积操作后的结果,则:(1)有效卷积11(,,"")((1),...,(),...,(1))()(1)()nmmiconvvalidtnmttii+....
本文编号:3930303
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3930303.html