基于深度学习的声学场景分类与声音事件检测
发布时间:2020-10-20 15:58
声学场景分类(Acoustic Scenes Classification,ASC)和声音事件检测(Sound Event Detection,SED)是多媒体分析与检索、音频监控、智能辅助驾驶等应用领域的关键技术,也是目前音频信号处理领域的研究热点之一。本文以复杂音频作为分析对象,探讨基于深度学习的声学场景分类和声音事件检测方法。本文主要工作及创新点如下:(1)提出了基于音频特征增强的声学场景分类方法。本文主要探讨音频特征增强(Audio Feature Augmentation,AFA)对声学场景分类性能的影响。具体包括:对两个通道音频数据的特征进行求均值和求差运算,得到两个通道特征的相同点和差异点;对音频数据均值的频谱做谐波冲击源分离(Harmonic Percussive Source Separation,HPSS),得到增强的音频特征。采用实验数据库DCASE2016和DCASE2017进行评测,基于音频特征增强的声学场景分类方法获得的准确率分别为85.8%和69.9%,均优于没有做数据增强的方法。此外,与其它声学场景分类方法相比,本文方法性能更优。(2)提出基于深度特征融合的道路异常声音事件检测方法。首先,采用深度自编码网络(Deep Autoencoder Network,DAN)将梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC),Bark滤波器组(Bark Filter Bank,BFB)和Gabor滤波器组(Gabor Filter Bank,GFB)三种浅层特征变换为深度特征,然后将上述深度特征的组合再次采用深度自编码网络进行变换得到融合的深度特征,最后将融合的深度特征输入长短时记忆网络(Long Short Term Memory Network,LSTMN)进行判决。实验结果表明,融合的深度特征在没有添加噪声时所得到的异常声音事件检测准确率为92.15%,F值为91.32%,高于其他单一特征所得到的结果;在添加噪声后,当信噪比分别为20 dB、10 dB、0 dB、-10dB时,融合的深度特征的性能明显优于其他特征,具有较强的抗噪性。综上所述,本文提出基于音频特征增强的声学场景分类方法和基于深度特征融合的道路异常声音事件检测方法。从多个侧面实验分析本文提出方法的性能,在多种实验条件下进行对比,验证本文方法的可靠性和有效性。
【学位单位】:华南理工大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TN912.3;TP18
【部分图文】:
图 2-1 梅尔频率倒谱系数提取流程声音信号的短时平稳性,在进行 40ms,帧移为帧长的一半左右。与窗函数相乘。窗函数为汉明窗 ,,0120.540.46cos()Nnn 后的声音信号做傅里叶变换,提取()()0102 XkxnekNnNknj, 信号的频谱后,设计梅尔滤波器隔分布的三角滤波器组,如图 2
图 2-2 梅尔滤波器组关系图由此得出梅尔带通滤波器组的系统函数为: 0,(1),()(1)(1)()(1),(1)()()(1)(1)0,(1)()kfmfmkfmfmfmfmkfmkfmfmfmkfmkfmHkm(2-5)f (m)为滤波器的中心频率,定义如下: 1()()()1MBfBfBBfmfNfmhlls(2-6)
第二章 声学特征与分类器 LlmllNMFCCi1lg()cos2(),m(l)为三角滤波器组滤波后输提取过程和 MFCC 类似,区别在于波器组特征采用的是 Bark 滤波器
【参考文献】
本文编号:2848874
【学位单位】:华南理工大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TN912.3;TP18
【部分图文】:
图 2-1 梅尔频率倒谱系数提取流程声音信号的短时平稳性,在进行 40ms,帧移为帧长的一半左右。与窗函数相乘。窗函数为汉明窗 ,,0120.540.46cos()Nnn 后的声音信号做傅里叶变换,提取()()0102 XkxnekNnNknj, 信号的频谱后,设计梅尔滤波器隔分布的三角滤波器组,如图 2
图 2-2 梅尔滤波器组关系图由此得出梅尔带通滤波器组的系统函数为: 0,(1),()(1)(1)()(1),(1)()()(1)(1)0,(1)()kfmfmkfmfmfmfmkfmkfmfmfmkfmkfmHkm(2-5)f (m)为滤波器的中心频率,定义如下: 1()()()1MBfBfBBfmfNfmhlls(2-6)
第二章 声学特征与分类器 LlmllNMFCCi1lg()cos2(),m(l)为三角滤波器组滤波后输提取过程和 MFCC 类似,区别在于波器组特征采用的是 Bark 滤波器
【参考文献】
相关期刊论文 前3条
1 其米克·巴特西;黄浩;王羡慧;;基于深度神经网络的维吾尔语语音识别[J];计算机工程与设计;2015年08期
2 何俊;李艳雄;贺前华;李威;;变异特征加权的异常语音说话人识别算法[J];华南理工大学学报(自然科学版);2012年03期
3 贺前华;李艳雄;李韬;张虹;杨继臣;;基于两步判决的口语中非文字音频事件检测方法[J];华南理工大学学报(自然科学版);2011年02期
本文编号:2848874
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2848874.html