基于门控卷积网络与CTC的端到端语音识别
发布时间:2025-01-09 06:36
针对传统声学模型存在模型组件复杂且不能统一进行训练,数据必须进行预对齐的问题,提出基于一维门控卷积神经网络与CTC的中文端到端语音识别模型。通过堆叠多层一维卷积神经网络进行声学建模,提取包含上下文信息的高层抽象特征,融合门控线性单元减少梯度弥散,利用CTC算法实现以汉字字符作为建模基元的端到端训练和解码。在公开数据集上的实验结果表明,与基线模型相比,该模型语音识别性能有明显提升,字错误率降低了3.3%以上。
【文章页数】:5 页
【部分图文】:
本文编号:4025306
【文章页数】:5 页
【部分图文】:
图1 模型结构
本文设计的1D-CNN+GLU+CTC的深度神经网络模型结构如图1所示。首先对输入的原始音频序列x进行预处理和特征提取。然后通过4类共10个卷积块(CNNblocks),每个CNNblock包含3个操作,分别为一维卷积、门控线性单元和Dropout,每类CNNblock设置....
图2 音频特征提取流程
在端到端的语音识别系统中,最常用的特征为梅尔频率倒谱系数(Mel-frequencycepstralcoefficient,MFCC)和基于滤波器组的特征Fbank(Filterbank)。MFCC基于人耳听觉特性进行设计,是在梅尔刻度频率提取出来的倒谱参数。Fbank特征....
图3 一维门控卷积神经网络结构
卷积神经网络最先在图像识别领域得到广泛的应用,之后被引入到自然语言处理和语音识别领域。将CNN用于语音识别,不仅可以精确控制依赖项的长度,通过堆叠CNN来标识长序列还可以使邻近的输入元素在较低的层进行交互,而远处的元素在较高的层进行交互,从而提取更高层、更抽象的特征。本文使用融合....
图4 CTC篱笆网格
通常,一个很短的输出序列可以由多条路径π合并得到。图4的篱笆图给出了当路径长度为6时,标签序列“cat”的全部合法路径。除了从路径中获取最终标签序列外,路径合并过程还旨在计算最终标签序列的概率。定义变换B为从序列中删除空白和重复,则B(cc-aat)=B(c-attt)=cat。....
本文编号:4025306
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/4025306.html