基于深度神经网络的连续语音识别研究
发布时间:2020-12-10 14:33
语音识别是模式识别的重要研究分支,也是当下人工智能时代人们重点关注的一项交互技术。近50多年来,传统语音识别技术逐渐地趋于稳定,而随着21世纪初深度神经网络理论的广泛关注,语音识别技术也随之有了迅猛的发展。从理论研究到产品应用,多样的深度神经网络模型在复杂的语音识别任务中取得了不俗的成果。本文的研究初衷是探讨在连续语音识别任务中应用不同的深度神经网络模型,完成的主要工作有两点:(1)研究了基于自动编码器结构的声学特征提取方法,针对现实应用场景中存在的噪声污染、多声源干扰等复杂环境下的语音识别任务,提出了一种堆叠式压缩降噪自动编码器模型,使得提取出的声学特征具有更强的抗干扰能力和表征能力。在2个标准语料库上进行的对比实验中,分别验证了网络模型深度以及使用不同编码器结构对提取声学特征的影响。经实验结果表明,堆叠式压缩降噪自动编码器模型能够通过自身的泛化能力,提取出更能代表语音信号本身的深层次特征,且在识别率指标上较其他的编码器网络模型结构有2%--4%的绝对提升。(2)研究了基于循环神经网络的端到端语音识别过程,分别使用CTC训练准则和注意力机制训练准则,在双向循环神经网络的基础上,建立了...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
语音识别流程
图 2.2 分帧操作中的帧长与帧移对语音信号进行分帧操作之后,每一帧都当成平稳信号来处理,随后就叶展开每一项以获取频谱特征,在这一过程中需要进行加窗操作,即模
图 2.3 MFCC 特征提取流程通过研究发现,人耳对不同频率的敏感程度不同,对相对低频率信号的感知能力较强,而相对高频率信号的感知能力较低。梅尔频率分析就是基于人类听觉的特性感知实验,
本文编号:2908860
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
语音识别流程
图 2.2 分帧操作中的帧长与帧移对语音信号进行分帧操作之后,每一帧都当成平稳信号来处理,随后就叶展开每一项以获取频谱特征,在这一过程中需要进行加窗操作,即模
图 2.3 MFCC 特征提取流程通过研究发现,人耳对不同频率的敏感程度不同,对相对低频率信号的感知能力较强,而相对高频率信号的感知能力较低。梅尔频率分析就是基于人类听觉的特性感知实验,
本文编号:2908860
本文链接:https://www.wllwen.com/kejilunwen/wltx/2908860.html