基于深度学习的音频事件检测方法研究
发布时间:2023-01-30 09:34
音频事件检测是一种检测音频事件类别及其起止时间的技术,它在安全监控、生物多样性保护、多媒体检索推荐和场景感知等民用与工业领域中有着广泛的应用。在现实环境中,音频事件可能相互混叠,要检测出音频事件的类别及其起止时间难度较大,虽然目前国内外不少科研单位都对此开展了研究,但是由于发展时间短,起步较晚,目前的检测技术依然不够成熟,还存在较大的研究空间。在需要检测出准确时间边界的应用场景中,检测方法主要依赖于有监督学习,由于音频事件的时间边界只能依赖于人工标注,有监督学习所用到的数据集往往规模较为有限。在数据集有限的情况下,如何构建高性能的深度学习模型是目前的研究难点。本文开展了基于深度学习的音频事件检测方法研究,主要从人工特征提取与深度学习建模两个方面出发,研究了梅尔频率倒谱系数和对数梅尔谱特征的提取方法,围绕着深度学习的基本理论,对卷积神经网络、循环神经网络和注意力机制开展了研究,并在街道场景数据集上,对提出的检测模型开展了检测分析。主要做了以下三个方面的工作:(1)建立了基于卷积神经网络的检测模型,通过实验对四种特征提取方案开展了检测分析,并探究了梅尔频段数对检测性能的影响。采用基于对数梅...
【文章页数】:78 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究工作的背景与意义
1.2 国内外研究现状
1.3 本论文的结构安排
第二章 音频事件检测方案设计
2.1 总体方案设计
2.2 评价指标
2.2.1 指标统计方式
2.2.2 准确率、召回率和F1值
2.2.3 错误率
2.3 数据集与交叉验证
2.4 本章小结
第三章 基于CNN的音频事件检测方法
3.1 特征谱图提取
3.2 深度学习建模
3.2.1 深度学习原理
3.2.2 隐藏层激活函数特性对比与选择
3.2.3 输出层激活函数特性对比与选择
3.2.4 损失函数分析与选取
3.3 基于卷积神经网络的检测模型
3.3.1 卷积神经网络原理
3.3.2 随机失活方法原理
3.4 不同特征提取方案的检测分析
3.5 本章小结
第四章 基于CNN和 RNN的音频事件检测方法
4.1 循环神经网络原理
4.2 循环神经单元特性分析与选择
4.2.1 长短期记忆单元
4.2.2 门控循环神经单元
4.3 双向循环神经网络特性分析
4.4 基于CNN和 RNN的神经网络检测分析
4.5 本章小结
第五章 基于注意力机制的改进方法
5.1 注意力机制
5.1.1 SE注意力机制
5.1.2 CBAM注意力机制
5.2 基于SE的改进模型检测分析
5.3 基于卷积注意力的改进模型检测分析
5.3.1 基于CBAM空间注意力的神经网络检测分析
5.3.2 基于CBAM通道注意力的神经网络检测分析
5.3.3 基于CBAM的神经网络检测分析
5.4 不同检测方法的检测性能对比
5.5 本章小结
第六章 全文总结与展望
6.1 全文总结
6.2 后续工作展望
致谢
参考文献
攻读硕士学位期间取得的成果
【参考文献】:
期刊论文
[1]基于次声监测的泥石流实时预警系统[J]. 尚东方,刘敦龙,韩雪,王瑞玺. 计算机与现代化. 2020(03)
[2]MFCC-小波神经网络电气主设备音频监控研究[J]. 王林,扈海泽,方梦鸽. 电力与能源. 2019(06)
[3]基于水声环境空间中多模态深度融合模型的目标识别方法研究[J]. 李琦,孙桂玲,黄翠,刘颉,常哲,于金花,文洪涛. 海洋技术学报. 2019(06)
[4]长短时记忆网络水下目标噪声智能识别方法[J]. 张少康,王超,田德艳,张小川. 舰船科学技术. 2019(23)
[5]基于音频事件检测和分类的音频监控系统背景模型自适应方法研究[J]. 张爱英,倪崇嘉. 计算机科学. 2016(09)
[6]基于K-L变换的水下目标声图像识别方法研究[J]. 肖璐,冯西安. 计算机仿真. 2013(03)
硕士论文
[1]基于深层神经网络的多声音事件检测方法研究[D]. 刘亚明.中国科学技术大学 2019
本文编号:3732941
【文章页数】:78 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究工作的背景与意义
1.2 国内外研究现状
1.3 本论文的结构安排
第二章 音频事件检测方案设计
2.1 总体方案设计
2.2 评价指标
2.2.1 指标统计方式
2.2.2 准确率、召回率和F1值
2.2.3 错误率
2.3 数据集与交叉验证
2.4 本章小结
第三章 基于CNN的音频事件检测方法
3.1 特征谱图提取
3.2 深度学习建模
3.2.1 深度学习原理
3.2.2 隐藏层激活函数特性对比与选择
3.2.3 输出层激活函数特性对比与选择
3.2.4 损失函数分析与选取
3.3 基于卷积神经网络的检测模型
3.3.1 卷积神经网络原理
3.3.2 随机失活方法原理
3.4 不同特征提取方案的检测分析
3.5 本章小结
第四章 基于CNN和 RNN的音频事件检测方法
4.1 循环神经网络原理
4.2 循环神经单元特性分析与选择
4.2.1 长短期记忆单元
4.2.2 门控循环神经单元
4.3 双向循环神经网络特性分析
4.4 基于CNN和 RNN的神经网络检测分析
4.5 本章小结
第五章 基于注意力机制的改进方法
5.1 注意力机制
5.1.1 SE注意力机制
5.1.2 CBAM注意力机制
5.2 基于SE的改进模型检测分析
5.3 基于卷积注意力的改进模型检测分析
5.3.1 基于CBAM空间注意力的神经网络检测分析
5.3.2 基于CBAM通道注意力的神经网络检测分析
5.3.3 基于CBAM的神经网络检测分析
5.4 不同检测方法的检测性能对比
5.5 本章小结
第六章 全文总结与展望
6.1 全文总结
6.2 后续工作展望
致谢
参考文献
攻读硕士学位期间取得的成果
【参考文献】:
期刊论文
[1]基于次声监测的泥石流实时预警系统[J]. 尚东方,刘敦龙,韩雪,王瑞玺. 计算机与现代化. 2020(03)
[2]MFCC-小波神经网络电气主设备音频监控研究[J]. 王林,扈海泽,方梦鸽. 电力与能源. 2019(06)
[3]基于水声环境空间中多模态深度融合模型的目标识别方法研究[J]. 李琦,孙桂玲,黄翠,刘颉,常哲,于金花,文洪涛. 海洋技术学报. 2019(06)
[4]长短时记忆网络水下目标噪声智能识别方法[J]. 张少康,王超,田德艳,张小川. 舰船科学技术. 2019(23)
[5]基于音频事件检测和分类的音频监控系统背景模型自适应方法研究[J]. 张爱英,倪崇嘉. 计算机科学. 2016(09)
[6]基于K-L变换的水下目标声图像识别方法研究[J]. 肖璐,冯西安. 计算机仿真. 2013(03)
硕士论文
[1]基于深层神经网络的多声音事件检测方法研究[D]. 刘亚明.中国科学技术大学 2019
本文编号:3732941
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3732941.html