弱标签环境下基于多尺度注意力融合的声音识别检测
发布时间:2021-10-24 17:28
目前大多数声音识别检测的研究都是基于强标签数据集的,但在真实环境的声音识别与检测任务中,音频标签不完整并且含有大量噪声,使得获取强标签音频数据比较困难,进而影响对声音的准确识别与检测。为此,在卷积循环神经网络模型的基础上,提出了一种多尺度注意力融合机制。该机制使用注意力门控单元,在降低声音时频图特征中噪声影响的同时,能够更多地利用有效特征。同时,通过结合多个尺寸的卷积核进行特征融合,进一步提升对声音特征的有效提取。此外,采用一种结合帧检测结果的加权法对声音信号进行识别。最后,在弱标签环境下,从AudioSet数据库中选取一个包含17种城市交通工具声音的弱标签数据集进行检测识别,所提模型对测试集声音识别结果的F1值为58.9%,检测结果的F1值为43.7%。结果表明,在弱标签城市交通工具声数据集下,网络模型相比传统的声音识别检测模型具有更高的识别检测精度;同时,重要性加权识别方法、多尺度注意力融合方法均可提升模型对声音识别检测的精度。
【文章来源】:计算机科学. 2020,47(05)北大核心CSCD
【文章页数】:4 页
【部分图文】:
CRNN模型结构图
借鉴inception结构[15]的创新思想,在门控注意力机制的基础上使用一种多尺度卷积融合方法,融合过程如图2所示。对CNN中的每一卷积层使用1*1的卷积核,得到输出Y1:
为了对声音事件进行检测,首先将音频分帧,得到时频图。通过CNN提取时频图的高级特征并将其输入RNN,最后将RNN的输出输入至FNN,并经过sigmoid激活函数得到每一帧的检测结果。声音事件检测与识别的整体模型结构如图3所示。为了更好地识别声音,首先将每一帧t的识别结果Pt进行平均,得到识别结果O:
本文编号:3455679
【文章来源】:计算机科学. 2020,47(05)北大核心CSCD
【文章页数】:4 页
【部分图文】:
CRNN模型结构图
借鉴inception结构[15]的创新思想,在门控注意力机制的基础上使用一种多尺度卷积融合方法,融合过程如图2所示。对CNN中的每一卷积层使用1*1的卷积核,得到输出Y1:
为了对声音事件进行检测,首先将音频分帧,得到时频图。通过CNN提取时频图的高级特征并将其输入RNN,最后将RNN的输出输入至FNN,并经过sigmoid激活函数得到每一帧的检测结果。声音事件检测与识别的整体模型结构如图3所示。为了更好地识别声音,首先将每一帧t的识别结果Pt进行平均,得到识别结果O:
本文编号:3455679
本文链接:https://www.wllwen.com/kejilunwen/wltx/3455679.html