基于多尺度残差深度卷积神经网络的语音识别

发布时间：2024-02-17 17:31

　　针对卷积神经网络在连续语音识别中识别性能较差的问题,提出多尺度残差深度卷积神经网络的语音识别的算法,并结合联结时序分类算法,构建端到端中文语音识别系统。将多尺度学习和残差机制以及空洞卷积引入到神经网络中,摆脱序列建模对长短时记忆神经网络的依赖,提高模型的训练速度,增强语音识别的抗噪声干扰性。实验表明,与双向长短时记忆模型(BLSTM)、深度卷积神经网络模型(DCNN)和卷积神经网络-长短时记忆模型(CNN-LSTM)相比,该模型的字错误率WER(Word Error Rate)分别降低了9%、5%和3%左右,且在噪声环境下的识别率也优于传统的语音识别系统。

【文章页数】：5 页

【部分图文】：

图1语音信号的时频图

语音当前的状态,与前后的状态都有关,网络层数越多,丢失的细节信息越多,因此本文引入多尺度特征。图1为一段纯净语音的时频图,图2为加了噪声的语音时频图,两幅图所表示的语音内容相同,横向为时间轴,纵向为频率轴,该段语音有16s,时频图的时间轴较长。时频图反映了语音的信号强度在不同频....

图2含噪语音的时频图

图1语音信号的时频图图3多尺度残差深度神经网络的语音识别模型

图3多尺度残差深度神经网络的语音识别模型

图2含噪语音的时频图2连接时序CTC的应用

图4不同信噪比下不同模型的误码率(cafe)

本文还对比不同噪声在低信噪比下的BLSTM、DCNN1、CNN-LSTM模型和本文模型的误码率。由图4-图6可知,在低信噪比下,本文提出的多尺度残差深度神经网络比BLSTM网络的抗噪声性能更加稳定,噪声越强,BLSTM网络的识别率较差并且识别率下降更快,不利于实际生活中的应用。而....

本文编号：3901145

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3901145.html

上一篇：级联式信道化和异构服务器的ESM系统组合架构
下一篇：基于机器学习的雷达目标和杂波分类

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|