基于门控循环单元和自注意力机制的端到端语音识别研究
发布时间:2021-09-17 11:28
随着计算能力的提升和大数据语料的不断积累,语音识别技术飞速发展,准确率大幅提高,应用的场景也越来越广。语音识别作为连接人类与智能硬件设备的桥梁,变得越来越受关注。本文针对传统语音识别模型训练时需要将语料信息和标签强制对齐的弊端,提出了结合自注意力机制语言模型的端到端语音识别方法,将链接时序分类的端到端框架应用于语音识别任务中,同时采用自注意力机制作为语言模型,强化系统的翻译能力,使得系统可以更全面的学习信号的特征,进而更好地完成中文语音识别任务。另外,针对应用于语音识别的长短时记忆(Long Short-Term Memory,LSTM)网络存在的计算复杂度高、训练时间长的问题,本文采用门控循环单元(Gate Recurrent Unit,GRU)网络代替LSTM,减小了计算开销,加快训练速度。根据对照实验,在相同的实验条件下,GRU网络的平均训练时间相对LSTM网络减少了17.59%。本文以结合高斯混合和隐马尔可夫的模型为基线实验,验证基于LSTM和GRU两种神经网络的端到端模型在准确率方面更加优越的性能。为了提高基线实验的准确率,在特征提取方面采用瓶颈特征代替梅尔倒谱系数(Mel-...
【文章来源】:中北大学山西省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
语音识别总体框架
汉明窗的时域特征和幅频特性
tanh函数Fig.2-5tanhfunction
【参考文献】:
期刊论文
[1]科大讯飞:从语音到AI的前行之路[J]. 淦凌云,卫萌. 中国工业和信息化. 2019(04)
[2]融入自注意力机制的社交媒体命名实体识别[J]. 李明扬,孔芳. 清华大学学报(自然科学版). 2019(06)
[3]基于混合式注意力机制的语音识别研究[J]. 李业良,张二华,唐振民. 计算机应用研究. 2020(01)
[4]基于循环神经网络的模糊测试用例生成[J]. 徐鹏,刘嘉勇,林波,孙慧颖,雷斌. 计算机应用研究. 2019(09)
[5]人工智能可能带来的五个奇点[J]. 国章成. 理论视野. 2018(06)
[6]基于改进激活函数的卷积神经网络研究[J]. 曲之琳,胡晓飞. 计算机技术与发展. 2017(12)
[7]基于DNN-HMM模型的语音识别的语音导航系统[J]. 赵永生,徐海青,吴立刚. 新型工业化. 2017(02)
[8]基于深度循环神经网络的时间序列预测模型[J]. 杨祎玥,伏潜,万定生. 计算机技术与发展. 2017(03)
[9]LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法[J]. 陈雷,杨俊安,王一,王龙. 信号处理. 2015(03)
[10]基于MFCC参数和VQ的说话人识别系统[J]. 王伟,邓辉文. 仪器仪表学报. 2006(S3)
博士论文
[1]复杂环境下基于深度学习的语音信号预处理方法研究[D]. 高天.中国科学技术大学 2018
硕士论文
[1]基于深度学习的远场语音识别技术研究[D]. 刘诚然.战略支援部队信息工程大学 2019
[2]端到端自动语音识别技术研究[D]. 蒋竺芳.北京邮电大学 2019
[3]端到端的语音识别研究[D]. 范汝超.北京邮电大学 2019
[4]神经网络时序分类方法在语音识别中的应用研究[D]. 王雨萌.东北石油大学 2019
[5]基于深度神经网络的语音识别研究[D]. 王杰.沈阳工业大学 2018
[6]基于主动学习的藏语语音识别在在线教育中的应用[D]. 李要嫱.中央民族大学 2018
[7]低信噪比环境下改进的语音识别系统研究[D]. 张涛.安徽工业大学 2018
[8]基于深度神经网络的连续语音识别研究[D]. 李明浩.吉林大学 2018
[9]噪声环境下基于深度学习的语音识别研究[D]. 李翔.武汉工程大学 2017
[10]鲁棒语音识别系统中的语音增强技术研究[D]. 刘金刚.重庆邮电大学 2017
本文编号:3398627
【文章来源】:中北大学山西省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
语音识别总体框架
汉明窗的时域特征和幅频特性
tanh函数Fig.2-5tanhfunction
【参考文献】:
期刊论文
[1]科大讯飞:从语音到AI的前行之路[J]. 淦凌云,卫萌. 中国工业和信息化. 2019(04)
[2]融入自注意力机制的社交媒体命名实体识别[J]. 李明扬,孔芳. 清华大学学报(自然科学版). 2019(06)
[3]基于混合式注意力机制的语音识别研究[J]. 李业良,张二华,唐振民. 计算机应用研究. 2020(01)
[4]基于循环神经网络的模糊测试用例生成[J]. 徐鹏,刘嘉勇,林波,孙慧颖,雷斌. 计算机应用研究. 2019(09)
[5]人工智能可能带来的五个奇点[J]. 国章成. 理论视野. 2018(06)
[6]基于改进激活函数的卷积神经网络研究[J]. 曲之琳,胡晓飞. 计算机技术与发展. 2017(12)
[7]基于DNN-HMM模型的语音识别的语音导航系统[J]. 赵永生,徐海青,吴立刚. 新型工业化. 2017(02)
[8]基于深度循环神经网络的时间序列预测模型[J]. 杨祎玥,伏潜,万定生. 计算机技术与发展. 2017(03)
[9]LVCSR系统中一种基于区分性和自适应瓶颈深度置信网络的特征提取方法[J]. 陈雷,杨俊安,王一,王龙. 信号处理. 2015(03)
[10]基于MFCC参数和VQ的说话人识别系统[J]. 王伟,邓辉文. 仪器仪表学报. 2006(S3)
博士论文
[1]复杂环境下基于深度学习的语音信号预处理方法研究[D]. 高天.中国科学技术大学 2018
硕士论文
[1]基于深度学习的远场语音识别技术研究[D]. 刘诚然.战略支援部队信息工程大学 2019
[2]端到端自动语音识别技术研究[D]. 蒋竺芳.北京邮电大学 2019
[3]端到端的语音识别研究[D]. 范汝超.北京邮电大学 2019
[4]神经网络时序分类方法在语音识别中的应用研究[D]. 王雨萌.东北石油大学 2019
[5]基于深度神经网络的语音识别研究[D]. 王杰.沈阳工业大学 2018
[6]基于主动学习的藏语语音识别在在线教育中的应用[D]. 李要嫱.中央民族大学 2018
[7]低信噪比环境下改进的语音识别系统研究[D]. 张涛.安徽工业大学 2018
[8]基于深度神经网络的连续语音识别研究[D]. 李明浩.吉林大学 2018
[9]噪声环境下基于深度学习的语音识别研究[D]. 李翔.武汉工程大学 2017
[10]鲁棒语音识别系统中的语音增强技术研究[D]. 刘金刚.重庆邮电大学 2017
本文编号:3398627
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3398627.html