基于多尺度残差深度卷积神经网络的语音识别
发布时间:2024-02-17 17:31
针对卷积神经网络在连续语音识别中识别性能较差的问题,提出多尺度残差深度卷积神经网络的语音识别的算法,并结合联结时序分类算法,构建端到端中文语音识别系统。将多尺度学习和残差机制以及空洞卷积引入到神经网络中,摆脱序列建模对长短时记忆神经网络的依赖,提高模型的训练速度,增强语音识别的抗噪声干扰性。实验表明,与双向长短时记忆模型(BLSTM)、深度卷积神经网络模型(DCNN)和卷积神经网络-长短时记忆模型(CNN-LSTM)相比,该模型的字错误率WER(Word Error Rate)分别降低了9%、5%和3%左右,且在噪声环境下的识别率也优于传统的语音识别系统。
【文章页数】:5 页
【部分图文】:
本文编号:3901145
【文章页数】:5 页
【部分图文】:
图1语音信号的时频图
语音当前的状态,与前后的状态都有关,网络层数越多,丢失的细节信息越多,因此本文引入多尺度特征。图1为一段纯净语音的时频图,图2为加了噪声的语音时频图,两幅图所表示的语音内容相同,横向为时间轴,纵向为频率轴,该段语音有16s,时频图的时间轴较长。时频图反映了语音的信号强度在不同频....
图2含噪语音的时频图
图1语音信号的时频图图3多尺度残差深度神经网络的语音识别模型
图3多尺度残差深度神经网络的语音识别模型
图2含噪语音的时频图2连接时序CTC的应用
图4不同信噪比下不同模型的误码率(cafe)
本文还对比不同噪声在低信噪比下的BLSTM、DCNN1、CNN-LSTM模型和本文模型的误码率。由图4-图6可知,在低信噪比下,本文提出的多尺度残差深度神经网络比BLSTM网络的抗噪声性能更加稳定,噪声越强,BLSTM网络的识别率较差并且识别率下降更快,不利于实际生活中的应用。而....
本文编号:3901145
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3901145.html