当前位置:主页 > 科技论文 > 信息工程论文 >

基于多尺度残差深度卷积神经网络的语音识别

发布时间:2024-02-17 17:31
  针对卷积神经网络在连续语音识别中识别性能较差的问题,提出多尺度残差深度卷积神经网络的语音识别的算法,并结合联结时序分类算法,构建端到端中文语音识别系统。将多尺度学习和残差机制以及空洞卷积引入到神经网络中,摆脱序列建模对长短时记忆神经网络的依赖,提高模型的训练速度,增强语音识别的抗噪声干扰性。实验表明,与双向长短时记忆模型(BLSTM)、深度卷积神经网络模型(DCNN)和卷积神经网络-长短时记忆模型(CNN-LSTM)相比,该模型的字错误率WER(Word Error Rate)分别降低了9%、5%和3%左右,且在噪声环境下的识别率也优于传统的语音识别系统。

【文章页数】:5 页

【部分图文】:

图1语音信号的时频图

图1语音信号的时频图

语音当前的状态,与前后的状态都有关,网络层数越多,丢失的细节信息越多,因此本文引入多尺度特征。图1为一段纯净语音的时频图,图2为加了噪声的语音时频图,两幅图所表示的语音内容相同,横向为时间轴,纵向为频率轴,该段语音有16s,时频图的时间轴较长。时频图反映了语音的信号强度在不同频....


图2含噪语音的时频图

图2含噪语音的时频图

图1语音信号的时频图图3多尺度残差深度神经网络的语音识别模型


图3多尺度残差深度神经网络的语音识别模型

图3多尺度残差深度神经网络的语音识别模型

图2含噪语音的时频图2连接时序CTC的应用


图4不同信噪比下不同模型的误码率(cafe)

图4不同信噪比下不同模型的误码率(cafe)

本文还对比不同噪声在低信噪比下的BLSTM、DCNN1、CNN-LSTM模型和本文模型的误码率。由图4-图6可知,在低信噪比下,本文提出的多尺度残差深度神经网络比BLSTM网络的抗噪声性能更加稳定,噪声越强,BLSTM网络的识别率较差并且识别率下降更快,不利于实际生活中的应用。而....



本文编号:3901145

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3901145.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0e2ff***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com