用于语音控制的低资源关键词检索系统
发布时间:2021-10-12 01:45
基于深度神经网络的低资源条件下关键词检索已经取得了很大的进展,但这些方法仍旧需要较多的参数才能保证模型的精度。为了进一步减少模型的参数量,本文将Squeeze-and-Excitation网络和深度可分离卷积应用在关键词检索任务中。首先利用Squeeze-and-Excitation网络对不同特征通道之间的相互依赖关系建模的能力进一步提升模型的精度,然后通过将标准卷积替换为深度可分离卷积来有效的减少模型所需要的参数。在谷歌语音命令数据集上的实验证明我们的模型可以在保证高精度的同时把参数量限制在一定的范围内。
【文章来源】:信号处理. 2020,36(06)北大核心CSCD
【文章页数】:6 页
【部分图文】:
ReSE16模型结构示意图
Squeeze-and-Excitation网络是一种通过建模特征图各个通道之间的相互依赖关系来提高网络表示能力的新型结构。通过这种结构,网络可以学习使用全局信息来选择性地强调某些通道的特征并抑制不太有用的一些通道。如图1所示,SE网络由两部分组成,首先squeeze将卷积得到的特征图沿着通道维度压缩,并由此为每个通道产生一个统计量;接下来excitation利用上一步得到的结果对各个通道之间的关系进行建模,并为每个通道计算出一个权重;最后通过给原有特征图的各个通道赋予不同的权重来形成新的特征图。SE网络的具体实现方式如图2所示,首先将卷积生成的特征图作为输入,通过一个平均池化层计算出每个通道上特征信息的均值。接下来的两个全连接层接收上一步得到的均值,输出每个通道的对应的权重。最后将权重与原始特征图相乘得到新的特征图。除了最基本的结构外,SE网络还能与残差结构进行组合来产生出不同的残差块(Block)。我们会在实验部分对不同结构的残差块进行测试。
SE网络的具体实现方式如图2所示,首先将卷积生成的特征图作为输入,通过一个平均池化层计算出每个通道上特征信息的均值。接下来的两个全连接层接收上一步得到的均值,输出每个通道的对应的权重。最后将权重与原始特征图相乘得到新的特征图。除了最基本的结构外,SE网络还能与残差结构进行组合来产生出不同的残差块(Block)。我们会在实验部分对不同结构的残差块进行测试。2.3 深度可分离卷积
本文编号:3431647
【文章来源】:信号处理. 2020,36(06)北大核心CSCD
【文章页数】:6 页
【部分图文】:
ReSE16模型结构示意图
Squeeze-and-Excitation网络是一种通过建模特征图各个通道之间的相互依赖关系来提高网络表示能力的新型结构。通过这种结构,网络可以学习使用全局信息来选择性地强调某些通道的特征并抑制不太有用的一些通道。如图1所示,SE网络由两部分组成,首先squeeze将卷积得到的特征图沿着通道维度压缩,并由此为每个通道产生一个统计量;接下来excitation利用上一步得到的结果对各个通道之间的关系进行建模,并为每个通道计算出一个权重;最后通过给原有特征图的各个通道赋予不同的权重来形成新的特征图。SE网络的具体实现方式如图2所示,首先将卷积生成的特征图作为输入,通过一个平均池化层计算出每个通道上特征信息的均值。接下来的两个全连接层接收上一步得到的均值,输出每个通道的对应的权重。最后将权重与原始特征图相乘得到新的特征图。除了最基本的结构外,SE网络还能与残差结构进行组合来产生出不同的残差块(Block)。我们会在实验部分对不同结构的残差块进行测试。
SE网络的具体实现方式如图2所示,首先将卷积生成的特征图作为输入,通过一个平均池化层计算出每个通道上特征信息的均值。接下来的两个全连接层接收上一步得到的均值,输出每个通道的对应的权重。最后将权重与原始特征图相乘得到新的特征图。除了最基本的结构外,SE网络还能与残差结构进行组合来产生出不同的残差块(Block)。我们会在实验部分对不同结构的残差块进行测试。2.3 深度可分离卷积
本文编号:3431647
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3431647.html