基于CRNN模型的弱标签城市交通工具声识别检测
发布时间:2021-04-10 06:40
为了实现智慧城市、智能交通等关键技术,对城市中交通工具发出的声音进行识别检测变得日益重要。目前大多数声音识别检测的研究都是基于强标签数据集,但获取强标签音频数据比较困难,所以我们需要研究如何在弱标签数据集下对城市交通工具声进行识别检测。论文从AudioSet数据库中选取了一个包含17种城市交通工具声的弱标签数据集进行研究,该数据集中每一类声音的样本数分布不平衡,而且数据集中的音频样本存在弱标签性、多源性的问题。论文将围绕这三个问题,就如何在弱标签数据集下提升对城市交通工具声的识别检测精度展开研究。数据集中声音的弱标签性,使得传统的声音识别检测模型不再适用。论文使用声音的对数梅尔频谱系数(MFSC)组成的时频图作为特征,并且针对研究任务的特点搭建了一种卷积循环神经网络(CRNN)作为声音识别检测系统的基线模型,该模型由卷积神经网络(CNN)和循环神经网络(RNN)组合而成,可以更充分地利用声音特征,适用于弱标签声音的识别检测任务。针对数据集中每一类声音样本分布不平衡的问题,论文使用了一种按比例选取训练批次数据的方法,该方法可以使模型充分学习到每一类声音的特征,缓解了模型训练时的有偏性问题...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:93 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 研究内容及存在问题
1.4 论文结构安排
第二章 声音识别检测相关理论
2.1 支持向量机
2.1.1 SVM分类思想
2.1.2 核函数
2.1.3 SVM多分类
2.2 多层感知机
2.2.1 前向传播
2.2.2 反向传播
2.3 卷积神经网络
2.3.1 卷积与池化
2.3.2 CNN反向传播
2.4 循环神经网络
2.4.1 RNN前向传播
2.4.2 RNN反向传播
2.5 本章小结
第三章 数据处理与特征提取
3.1 数据集介绍
3.2 数据预处理和特征提取
3.2.1 MFSC特征提取
3.2.2 MFCC特征提取
3.3 仿真实验
3.3.1 特征选取
3.3.2 识别任务评估指标
3.3.3 模型参数设置
3.3.4 仿真结果对比及分析
3.4 本章小结
第四章 声音识别检测模型
4.1 卷积循环神经网络
4.1.1 CNN部分
4.1.2 RNN部分
4.2 识别与检测
4.2.1 传统声音识别检测方法
4.2.2 重要性加权识别方法
4.3 仿真实验
4.3.1 数据平衡方法
4.3.2 模型结构及参数设置
4.3.3 检测任务评估指标
4.3.4 仿真结果及对比分析
4.4 本章小结
第五章 多尺度注意力融合和多滑窗分帧
5.1 多尺度注意力融合
5.1.1 注意力门控机制
5.1.2 多尺度卷积融合
5.2 多滑窗分帧
5.3 仿真实验
5.3.1 模型结构及参数设置
5.3.2 多模型融合
5.3.3 仿真结果及对比分析
5.4 本章小结
第六章 总结与展望
6.1 工作总结
6.2 研究展望
参考文献
致谢
作者简介
【参考文献】:
期刊论文
[1]基于EEMD的异常声音多类识别算法[J]. 韦娟,岳凤丽,仇鹏,宁方立. 华中科技大学学报(自然科学版). 2018(07)
本文编号:3129158
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:93 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 研究内容及存在问题
1.4 论文结构安排
第二章 声音识别检测相关理论
2.1 支持向量机
2.1.1 SVM分类思想
2.1.2 核函数
2.1.3 SVM多分类
2.2 多层感知机
2.2.1 前向传播
2.2.2 反向传播
2.3 卷积神经网络
2.3.1 卷积与池化
2.3.2 CNN反向传播
2.4 循环神经网络
2.4.1 RNN前向传播
2.4.2 RNN反向传播
2.5 本章小结
第三章 数据处理与特征提取
3.1 数据集介绍
3.2 数据预处理和特征提取
3.2.1 MFSC特征提取
3.2.2 MFCC特征提取
3.3 仿真实验
3.3.1 特征选取
3.3.2 识别任务评估指标
3.3.3 模型参数设置
3.3.4 仿真结果对比及分析
3.4 本章小结
第四章 声音识别检测模型
4.1 卷积循环神经网络
4.1.1 CNN部分
4.1.2 RNN部分
4.2 识别与检测
4.2.1 传统声音识别检测方法
4.2.2 重要性加权识别方法
4.3 仿真实验
4.3.1 数据平衡方法
4.3.2 模型结构及参数设置
4.3.3 检测任务评估指标
4.3.4 仿真结果及对比分析
4.4 本章小结
第五章 多尺度注意力融合和多滑窗分帧
5.1 多尺度注意力融合
5.1.1 注意力门控机制
5.1.2 多尺度卷积融合
5.2 多滑窗分帧
5.3 仿真实验
5.3.1 模型结构及参数设置
5.3.2 多模型融合
5.3.3 仿真结果及对比分析
5.4 本章小结
第六章 总结与展望
6.1 工作总结
6.2 研究展望
参考文献
致谢
作者简介
【参考文献】:
期刊论文
[1]基于EEMD的异常声音多类识别算法[J]. 韦娟,岳凤丽,仇鹏,宁方立. 华中科技大学学报(自然科学版). 2018(07)
本文编号:3129158
本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/3129158.html