当前位置:主页 > 科技论文 > 信息工程论文 >

采用注意力机制和多任务训练的端到端无语音识别关键词检索系统

发布时间:2022-01-13 08:25
  传统的关键词搜索(KWS, Keyword Search)系统依靠自动语音识别(ASR, Automatic Speech Recognition),通常在资源不足的情况下很难训练。为了免去训练完整的语音识别系统,无语音识别(ASR-free)的关键词检索系统受到越来越多的欢迎。本文提出了一个端到端(E2E, End-to-End)的关键词检索系统,该系统由两个编码器,两个解码器,一个注意机制和一个判别器组成。本文在所提出的系统中引入了注意力机制,该机制可以合并编码器输出的文本和音频特征从而辅助定位关键词所在的位置。在文本和音频解码器的不同组合情况下,使用Babel阿萨姆语和普什图语数据集测试系统。实验结果表明,相比于基线系统而言,该系统拥有更好的检测性能。相比于基于语音识别的关键词检索系统,该系统对于集外词(OOV, Out-Of-Vocabulary),在STWV(Supremum Term Weighted Value)指标上,取得了更好的效果。当训练数据量受限时,该系统比基于语音识别的关键词检索系统更具有优势。 

【文章来源】:信号处理. 2020,36(06)北大核心CSCD

【文章页数】:13 页

【部分图文】:

采用注意力机制和多任务训练的端到端无语音识别关键词检索系统


端到端无语音识别关键词检索系统基本框架

注意力,机制,权重,可视


在第2.4节中,我们介绍了注意力机制,它可以将文本编码器和音频编码器所提取的文本和音频特征进行融合。具体而言,注意力机制可以对于每个时间步生成一组权重。然后,根据这组权重,对文本和音频特征所结合的特征进行加权求和,如式(5)所示。注意力机制所输出的权重如图2所示。其中,(a)和(b)分别展示了在训练刚开始的时候,对于负样本和正样本,注意机制的输出,图中底部的高亮水平线表示此时注意机制仅仅无差别的关注了最末端所对应的特征,此时对于关键词检索,注意力机制没有起到我们预想的作用。(c)和(d)分别表示在经过训练模型收敛后,负样本和正样本对应的注意力机制输出,可以看到,注意机制关注正样本的总体特征的上半部分(也就是语音段中比较靠前的部分),而对于负样本的注意力机制则几乎无差别地关注了所有时间步。需要指出的是,在基于注意力机制的语音识别系统中,注意力机制输出的图像一般是类似于阶梯状的,其原理在于训练模型的对齐能力。然而,对于关键词检索系统的注意力机制中,仅仅需要使注意力机制更多地注意到关键词可能存在的地方,而并不需要对齐,所以此处的注意力机制所输出的权重是不呈阶梯状的。这是语音识别中和关键词检索中的注意力机制的主要差别。

【参考文献】:
期刊论文
[1]采用词图相交融合的语音关键词检测方法[J]. 李鹏,屈丹.  信号处理. 2015(06)



本文编号:3586071

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3586071.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b2fa3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com