端到端的深度卷积神经网络语音识别

发布时间：2021-06-30 20:18

　　卷积神经网络（Convolutional Neural Networks,CNN）是目前流行的语音识别模型之一,其特有卷积结构保证了语音信号时域和频域的平移不变性。但是CNN存在着对语音信号建模能力有所不足的问题。为此,将链接时序准则（CTC）应用在CNN结构中,构建端到端卷积神经网络（CTC-CNN）模型。同时,引入残差块结构,提出一种新的端到端深度卷积神经网络（CTC-DCNN）模型,并利用maxout激活函数对其进行优化。通过TIMIT和Thchs-30语音库测试实验,结果表明在中英文识别中,采用该模型比现有卷积神经网络模型,准确率分别提高约4.7%和6.3%。

【文章来源】：计算机应用与软件. 2020,37(04)北大核心

【文章页数】：5 页

【部分图文】：

端到端的深度卷积神经网络语音识别

CTC-CNN模型

模型图,模型,声学模型,语音识别

CTC-DCNN模型

残差图,残差,激活函数,卷积和

残差块结构中,通过shortcut连接,能够将原始的输入值直接传输到后面的层,减少过深的卷积层数带来的训练误差。残差块中,通常采用的激活函数是ReLU函数,本文提出通过maxout函数优化残差网络中,改善原本激活函数可能存在的死机现象,具体改进结构如图3所示。其中:X是a[l-1]层的输入,经过卷积和激活函数后输出特征进入a[l]层。这些层的表示如下:

【参考文献】：
期刊论文
[1]Geospatial Data to Images: A Deep-Learning Framework for Traffic Forecasting[J]. Weiwei Jiang,Lin Zhang.  Tsinghua Science and Technology. 2019(01)
[2]平稳小波域深度残差CNN用于低剂量CT图像估计[J]. 高净植,刘祎,白旭,张权,桂志国.  计算机应用. 2018(12)
[3]基于改进卷积神经网络算法的语音识别[J]. 杨洋,汪毓铎.  应用声学. 2018(06)
[4]基于双向长短时记忆-联结时序分类和加权有限状态转换器的端到端中文语音识别系统[J]. 姚煜,RYAD Chellali.  计算机应用. 2018(09)
[5]基于动态BLSTM和CTC的濒危语言语音识别研究[J]. 于重重,陈运兵,孙沁瑶,刘畅,徐世璇,尹蔚彬.  计算机应用研究. 2019(11)
[6]语音识别中神经网络声学模型的说话人自适应研究[J]. 金超,龚铖,李辉.  计算机应用与软件. 2018(02)
[7]基于端到端技术的藏语语音识别[J]. 王庆楠,郭武,解传栋.  模式识别与人工智能. 2017(04)
[8]基于卷积神经网络的维吾尔语语音识别[J]. 梁玉龙,屈丹,李真,张文林.  信息工程大学学报. 2017(01)
[9]语音识别中卷积神经网络优化算法[J]. 刘长征,张磊.  哈尔滨理工大学学报. 2016(03)

本文编号：3258424

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/wltx/3258424.html

上一篇：基于深度学习的脑电信号识别技术研究
下一篇：大规模MIMO系统中动态迁移导频分配

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|