可变形特征图残差网络用于城市声音识别
发布时间:2021-02-21 13:19
针对城市声音识别过程中时频图像特征提取较困难的问题,提出一种可变形特征图残差网络用于城市声音识别.首先设计可变形特征图残差模块,包括偏移层与卷积层.偏移层将输入特征图的像素点移位,移位后的特征图通过快捷连接与卷积层提取到的特征图叠加,使网络集中在感兴趣的特征图区域采样,并向下级网络传递移位后特征图信息;其次设计可变形卷积残差网络;最后将该网络提取的特征与城市声音的梅尔倒谱系数融合,经压缩激励模块重标定后输入全连接层分类.在城市声音数据集上进行了实验,结果表明,与卷积神经网络的方法相比,该方法用于城市声音识别准确率提高5%以上.
【文章来源】:计算机辅助设计与图形学学报. 2020,32(11)北大核心
【文章页数】:10 页
【部分图文】:
0 可变形特征图残差网络识别城市声音流程图
实际获取的城市声音信噪比未知,通常可分为高信噪比和低信噪比.根据式(1)可得到典型城市声音对数梅尔谱图如图1所示,分图左右部分分别为较高信噪比与较低信噪比实例.可以看到,虽然信噪比不同,但城市声音对数梅尔谱图在一定程度上具有类似的纹理,如图1l的尖叫声,图1m的玻璃破碎声.但低信噪比下的对数梅尔谱图的纹理往往更加丰富,如图1a的空调外机声,图1b的小车鸣笛声,图1d的狗叫声,图1f的发动机空转声及图1j的街边音乐声;从图1i的汽笛声对数梅尔谱图可以看到,它具有类似的条形纹理,颜色十分明亮,这表明对应频率成分能量高.宽度不固定的横向条纹代表声音的频率成分随时间变化,宽度不固定的纵向条纹则意味不同频率成分持续时间不同;图1b的小车鸣笛声,图1e的钻孔声对数梅尔谱图,可以观察到明显的曲线,而曲线灰度值较大,代表声音的能量高度集中在少数频率成分上;图1a的空调外机声,图1c的孩子玩耍声,图1d的狗叫声,图1f的发动机空转声,图1h的手提钻声,图1j的街边音乐声以及图1l的尖叫声的对数梅尔谱图具有明亮颜色的区域较大,代表城市声音频率成分多,与前2类声音相比,能量分布较分散,纹理丰富,并且能量相对集中区域结构复杂,也就是城市声音频率成分随时间变化较大;图1g的枪声,图1k的爆炸声,图1m的玻璃破碎声的对数梅尔谱图中某些区域能量相对集中,一般为区域中心颜色十分明亮,向边缘方向逐渐变灰暗,其轮廓边缘呈现不规则的特点,表明该类城市声音各频率成分能量衰减速度不同.此外,时间窗长度和滑动步长等参数将影响城市声音转换而成的对数梅尔谱图,然而由于时间窗与滑动距离十分短,对数梅尔谱图的区别较小.2 可变形特征图残差网络
近年来,CNN在图像处理中表现出优秀的性能[20-21].Res Net[16]是CNN的经典结构,能较好地解决随着CNN深度增加,性能迅速下降的问题.Res Net主要由残差模块堆叠而成,残差模块如图2所示,其中,identity x称为快捷连接,x为残差模块的输入;Convolution为卷积层,x经过2个卷积层后的输出为与快捷连接叠加后输出F残差模块输出的特征图大小与输入x相同,利用2层卷积层拟合输入与输出间的残差,使得残差模块有较强的学习能力.因此,Res Net是目前用于自然图像特征提取很好的选择.城市声音对数梅尔谱图与自然图像特性截然不同.如自然图像的背景色彩对比强烈,目标轮廓边缘清晰,具有一定的规律.由于背景噪声的干扰,城市声音对数梅尔谱图的能量相对集中区域即包含目标声音与背景噪声信息.相较于自然图像,对数梅尔谱图主要体现为纹理丰富,能量集中区域几何结构复杂,轮廓边缘不规则,类别之间差异较小.因此,传统的Res Net提取自然图像特征的方法并不能很好地处理城市声音对数梅尔谱图特征提取问题.其主要原因是,残差模块卷积层中卷积核大小、形状和采样位置固定,在提取城市声音对数梅尔谱图特征时,这种固定的卷积核单元往往无法集中在图像感兴趣的区域采样.图3中,黑色的点代表传统卷积核的采样的像素点位置,由于传统卷积核采样点形状为固定的矩形,因此,被采样的像素点形状也为矩形.图3a第3行像素点处于较灰暗的区域,图3b中只有第2行2个像素点及第3行一个像素点处于较明亮的区域.同理,图3c和图3d采样的像素点极易处于城市声音对数梅尔谱图灰度值低且变化较小的区域,这些区域较灰暗,信号的频率成分极少,无法反映信号的时频特性,即此时卷积核在谱图无关紧要或不感兴趣的区域采样,自然提取的特征信息较少,网络的特征描述能力较差.
【参考文献】:
期刊论文
[1]改进的ESMD用于公共场所异常声音特征提取[J]. 李伟红,田真真,龚卫国,王伟冰. 仪器仪表学报. 2016(11)
本文编号:3044405
【文章来源】:计算机辅助设计与图形学学报. 2020,32(11)北大核心
【文章页数】:10 页
【部分图文】:
0 可变形特征图残差网络识别城市声音流程图
实际获取的城市声音信噪比未知,通常可分为高信噪比和低信噪比.根据式(1)可得到典型城市声音对数梅尔谱图如图1所示,分图左右部分分别为较高信噪比与较低信噪比实例.可以看到,虽然信噪比不同,但城市声音对数梅尔谱图在一定程度上具有类似的纹理,如图1l的尖叫声,图1m的玻璃破碎声.但低信噪比下的对数梅尔谱图的纹理往往更加丰富,如图1a的空调外机声,图1b的小车鸣笛声,图1d的狗叫声,图1f的发动机空转声及图1j的街边音乐声;从图1i的汽笛声对数梅尔谱图可以看到,它具有类似的条形纹理,颜色十分明亮,这表明对应频率成分能量高.宽度不固定的横向条纹代表声音的频率成分随时间变化,宽度不固定的纵向条纹则意味不同频率成分持续时间不同;图1b的小车鸣笛声,图1e的钻孔声对数梅尔谱图,可以观察到明显的曲线,而曲线灰度值较大,代表声音的能量高度集中在少数频率成分上;图1a的空调外机声,图1c的孩子玩耍声,图1d的狗叫声,图1f的发动机空转声,图1h的手提钻声,图1j的街边音乐声以及图1l的尖叫声的对数梅尔谱图具有明亮颜色的区域较大,代表城市声音频率成分多,与前2类声音相比,能量分布较分散,纹理丰富,并且能量相对集中区域结构复杂,也就是城市声音频率成分随时间变化较大;图1g的枪声,图1k的爆炸声,图1m的玻璃破碎声的对数梅尔谱图中某些区域能量相对集中,一般为区域中心颜色十分明亮,向边缘方向逐渐变灰暗,其轮廓边缘呈现不规则的特点,表明该类城市声音各频率成分能量衰减速度不同.此外,时间窗长度和滑动步长等参数将影响城市声音转换而成的对数梅尔谱图,然而由于时间窗与滑动距离十分短,对数梅尔谱图的区别较小.2 可变形特征图残差网络
近年来,CNN在图像处理中表现出优秀的性能[20-21].Res Net[16]是CNN的经典结构,能较好地解决随着CNN深度增加,性能迅速下降的问题.Res Net主要由残差模块堆叠而成,残差模块如图2所示,其中,identity x称为快捷连接,x为残差模块的输入;Convolution为卷积层,x经过2个卷积层后的输出为与快捷连接叠加后输出F残差模块输出的特征图大小与输入x相同,利用2层卷积层拟合输入与输出间的残差,使得残差模块有较强的学习能力.因此,Res Net是目前用于自然图像特征提取很好的选择.城市声音对数梅尔谱图与自然图像特性截然不同.如自然图像的背景色彩对比强烈,目标轮廓边缘清晰,具有一定的规律.由于背景噪声的干扰,城市声音对数梅尔谱图的能量相对集中区域即包含目标声音与背景噪声信息.相较于自然图像,对数梅尔谱图主要体现为纹理丰富,能量集中区域几何结构复杂,轮廓边缘不规则,类别之间差异较小.因此,传统的Res Net提取自然图像特征的方法并不能很好地处理城市声音对数梅尔谱图特征提取问题.其主要原因是,残差模块卷积层中卷积核大小、形状和采样位置固定,在提取城市声音对数梅尔谱图特征时,这种固定的卷积核单元往往无法集中在图像感兴趣的区域采样.图3中,黑色的点代表传统卷积核的采样的像素点位置,由于传统卷积核采样点形状为固定的矩形,因此,被采样的像素点形状也为矩形.图3a第3行像素点处于较灰暗的区域,图3b中只有第2行2个像素点及第3行一个像素点处于较明亮的区域.同理,图3c和图3d采样的像素点极易处于城市声音对数梅尔谱图灰度值低且变化较小的区域,这些区域较灰暗,信号的频率成分极少,无法反映信号的时频特性,即此时卷积核在谱图无关紧要或不感兴趣的区域采样,自然提取的特征信息较少,网络的特征描述能力较差.
【参考文献】:
期刊论文
[1]改进的ESMD用于公共场所异常声音特征提取[J]. 李伟红,田真真,龚卫国,王伟冰. 仪器仪表学报. 2016(11)
本文编号:3044405
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3044405.html