标签同步解码算法及其在语音识别中的应用
发布时间:2023-03-13 20:39
自动语音识别(Automatic Speech Recognition,ASR)等序列标注任务的一个显著特点是其对相邻帧的时序序列关联性建模.用于对相邻帧进行时序建模的主流序列模型包括隐马尔可夫模型(Hidden Markov Model,HMM)和连接时序模型(Connectionist Temporal Classification,CTC).针对这些模型,当前主流的推理方法是帧层面的维特比束搜索算法,该算法复杂度很高,限制了语音识别的广泛应用.深度学习的发展使得更强的上下文和历史建模成为可能.通过引入blank单元,端到端建模系统能够直接预测标签在给定特征下的后验概率.该文系统地提出了一系列方法,通过使用高效的blank结构和后处理方法,使得搜索解码过程从逐帧同步变为标签同步.该系列通用方法在隐马尔可夫模型和连接时序模型上均得到了验证.结果表明,在Switchboard数据集上,不损失性能的前提下,实验取得了2~4倍的加速.该文同时研究了搜索空间、候选序列剪枝、转移模型、降帧率等对加速比的影响,并在所有情况下取得一致性加速.
【文章页数】:13 页
【文章目录】:
1引言
2语音识别解码算法研究现状分析
2.1序列标注与序列模型
2.1.1序列标注
2.1.2序列模型:GSM与DSM
2.2帧同步解码
2.2.1公式推导
2.2.2解码复杂度分析
3基于端到端建模的标签同步推理
3.1 DSM的标签同步解码
3.2 GSM的标签同步解码
3.3 FSD和LSD的对比
4标签同步解码算法及其应用
4.1模型
4.2算法
4.3剪枝
5实验及分析
5.1 DSM实验
5.2 GSM实验
6结论
Background
本文编号:3762352
【文章页数】:13 页
【文章目录】:
1引言
2语音识别解码算法研究现状分析
2.1序列标注与序列模型
2.1.1序列标注
2.1.2序列模型:GSM与DSM
2.2帧同步解码
2.2.1公式推导
2.2.2解码复杂度分析
3基于端到端建模的标签同步推理
3.1 DSM的标签同步解码
3.2 GSM的标签同步解码
3.3 FSD和LSD的对比
4标签同步解码算法及其应用
4.1模型
4.2算法
4.3剪枝
5实验及分析
5.1 DSM实验
5.2 GSM实验
6结论
Background
本文编号:3762352
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3762352.html