当前位置:主页 > 科技论文 > 网络通信论文 >

端到端的深度卷积神经网络语音识别

发布时间:2021-06-30 20:18
  卷积神经网络(Convolutional Neural Networks,CNN)是目前流行的语音识别模型之一,其特有卷积结构保证了语音信号时域和频域的平移不变性。但是CNN存在着对语音信号建模能力有所不足的问题。为此,将链接时序准则(CTC)应用在CNN结构中,构建端到端卷积神经网络(CTC-CNN)模型。同时,引入残差块结构,提出一种新的端到端深度卷积神经网络(CTC-DCNN)模型,并利用maxout激活函数对其进行优化。通过TIMIT和Thchs-30语音库测试实验,结果表明在中英文识别中,采用该模型比现有卷积神经网络模型,准确率分别提高约4.7%和6.3%。 

【文章来源】:计算机应用与软件. 2020,37(04)北大核心

【文章页数】:5 页

【部分图文】:

端到端的深度卷积神经网络语音识别


CTC-CNN模型

模型图,模型,声学模型,语音识别


CTC-DCNN模型

残差图,残差,激活函数,卷积和


残差块结构中,通过shortcut连接,能够将原始的输入值直接传输到后面的层,减少过深的卷积层数带来的训练误差。残差块中,通常采用的激活函数是ReLU函数,本文提出通过maxout函数优化残差网络中,改善原本激活函数可能存在的死机现象,具体改进结构如图3所示。其中:X是a[l-1]层的输入,经过卷积和激活函数后输出特征进入a[l]层。这些层的表示如下:

【参考文献】:
期刊论文
[1]Geospatial Data to Images: A Deep-Learning Framework for Traffic Forecasting[J]. Weiwei Jiang,Lin Zhang.  Tsinghua Science and Technology. 2019(01)
[2]平稳小波域深度残差CNN用于低剂量CT图像估计[J]. 高净植,刘祎,白旭,张权,桂志国.  计算机应用. 2018(12)
[3]基于改进卷积神经网络算法的语音识别[J]. 杨洋,汪毓铎.  应用声学. 2018(06)
[4]基于双向长短时记忆-联结时序分类和加权有限状态转换器的端到端中文语音识别系统[J]. 姚煜,RYAD Chellali.  计算机应用. 2018(09)
[5]基于动态BLSTM和CTC的濒危语言语音识别研究[J]. 于重重,陈运兵,孙沁瑶,刘畅,徐世璇,尹蔚彬.  计算机应用研究. 2019(11)
[6]语音识别中神经网络声学模型的说话人自适应研究[J]. 金超,龚铖,李辉.  计算机应用与软件. 2018(02)
[7]基于端到端技术的藏语语音识别[J]. 王庆楠,郭武,解传栋.  模式识别与人工智能. 2017(04)
[8]基于卷积神经网络的维吾尔语语音识别[J]. 梁玉龙,屈丹,李真,张文林.  信息工程大学学报. 2017(01)
[9]语音识别中卷积神经网络优化算法[J]. 刘长征,张磊.  哈尔滨理工大学学报. 2016(03)



本文编号:3258424

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/3258424.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d71a2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com