端到端的深度卷积神经网络语音识别
发布时间:2021-06-30 20:18
卷积神经网络(Convolutional Neural Networks,CNN)是目前流行的语音识别模型之一,其特有卷积结构保证了语音信号时域和频域的平移不变性。但是CNN存在着对语音信号建模能力有所不足的问题。为此,将链接时序准则(CTC)应用在CNN结构中,构建端到端卷积神经网络(CTC-CNN)模型。同时,引入残差块结构,提出一种新的端到端深度卷积神经网络(CTC-DCNN)模型,并利用maxout激活函数对其进行优化。通过TIMIT和Thchs-30语音库测试实验,结果表明在中英文识别中,采用该模型比现有卷积神经网络模型,准确率分别提高约4.7%和6.3%。
【文章来源】:计算机应用与软件. 2020,37(04)北大核心
【文章页数】:5 页
【部分图文】:
CTC-CNN模型
CTC-DCNN模型
残差块结构中,通过shortcut连接,能够将原始的输入值直接传输到后面的层,减少过深的卷积层数带来的训练误差。残差块中,通常采用的激活函数是ReLU函数,本文提出通过maxout函数优化残差网络中,改善原本激活函数可能存在的死机现象,具体改进结构如图3所示。其中:X是a[l-1]层的输入,经过卷积和激活函数后输出特征进入a[l]层。这些层的表示如下:
【参考文献】:
期刊论文
[1]Geospatial Data to Images: A Deep-Learning Framework for Traffic Forecasting[J]. Weiwei Jiang,Lin Zhang. Tsinghua Science and Technology. 2019(01)
[2]平稳小波域深度残差CNN用于低剂量CT图像估计[J]. 高净植,刘祎,白旭,张权,桂志国. 计算机应用. 2018(12)
[3]基于改进卷积神经网络算法的语音识别[J]. 杨洋,汪毓铎. 应用声学. 2018(06)
[4]基于双向长短时记忆-联结时序分类和加权有限状态转换器的端到端中文语音识别系统[J]. 姚煜,RYAD Chellali. 计算机应用. 2018(09)
[5]基于动态BLSTM和CTC的濒危语言语音识别研究[J]. 于重重,陈运兵,孙沁瑶,刘畅,徐世璇,尹蔚彬. 计算机应用研究. 2019(11)
[6]语音识别中神经网络声学模型的说话人自适应研究[J]. 金超,龚铖,李辉. 计算机应用与软件. 2018(02)
[7]基于端到端技术的藏语语音识别[J]. 王庆楠,郭武,解传栋. 模式识别与人工智能. 2017(04)
[8]基于卷积神经网络的维吾尔语语音识别[J]. 梁玉龙,屈丹,李真,张文林. 信息工程大学学报. 2017(01)
[9]语音识别中卷积神经网络优化算法[J]. 刘长征,张磊. 哈尔滨理工大学学报. 2016(03)
本文编号:3258424
【文章来源】:计算机应用与软件. 2020,37(04)北大核心
【文章页数】:5 页
【部分图文】:
CTC-CNN模型
CTC-DCNN模型
残差块结构中,通过shortcut连接,能够将原始的输入值直接传输到后面的层,减少过深的卷积层数带来的训练误差。残差块中,通常采用的激活函数是ReLU函数,本文提出通过maxout函数优化残差网络中,改善原本激活函数可能存在的死机现象,具体改进结构如图3所示。其中:X是a[l-1]层的输入,经过卷积和激活函数后输出特征进入a[l]层。这些层的表示如下:
【参考文献】:
期刊论文
[1]Geospatial Data to Images: A Deep-Learning Framework for Traffic Forecasting[J]. Weiwei Jiang,Lin Zhang. Tsinghua Science and Technology. 2019(01)
[2]平稳小波域深度残差CNN用于低剂量CT图像估计[J]. 高净植,刘祎,白旭,张权,桂志国. 计算机应用. 2018(12)
[3]基于改进卷积神经网络算法的语音识别[J]. 杨洋,汪毓铎. 应用声学. 2018(06)
[4]基于双向长短时记忆-联结时序分类和加权有限状态转换器的端到端中文语音识别系统[J]. 姚煜,RYAD Chellali. 计算机应用. 2018(09)
[5]基于动态BLSTM和CTC的濒危语言语音识别研究[J]. 于重重,陈运兵,孙沁瑶,刘畅,徐世璇,尹蔚彬. 计算机应用研究. 2019(11)
[6]语音识别中神经网络声学模型的说话人自适应研究[J]. 金超,龚铖,李辉. 计算机应用与软件. 2018(02)
[7]基于端到端技术的藏语语音识别[J]. 王庆楠,郭武,解传栋. 模式识别与人工智能. 2017(04)
[8]基于卷积神经网络的维吾尔语语音识别[J]. 梁玉龙,屈丹,李真,张文林. 信息工程大学学报. 2017(01)
[9]语音识别中卷积神经网络优化算法[J]. 刘长征,张磊. 哈尔滨理工大学学报. 2016(03)
本文编号:3258424
本文链接:https://www.wllwen.com/kejilunwen/wltx/3258424.html