基于深度学习的声目标识别方法研究
发布时间:2021-04-22 16:03
声目标识别是声音信号处理领域的热点研究课题,致力于通过分析声音信号中所包含的复杂特征,识别其中包含的语义信息,最终实现声目标的识别。声音作为信息的主要载体之一,声目标的识别可广泛用于安全监管、医疗监护、生态系统调查和反恐防暴等领域。针对复杂环境下多种声音难以得到有效表征和噪声环境下声目标的识别较易误判且易受噪声变化影响的问题,以ESC10、ESC50和UrbanSound8K三个常用的环境声音分类基准数据库和自建数据库AUDIO-5作为研究对象,进行了噪声环境下声信号的表征和识别研究。本文主要研究内容和创新性成果如下:(1)大量阅读并分析整理了声目标识别的国内外相关研究现状,发现基于深度学习的声目标识别方法往往具有更好的识别性能,对多类别的声音具有更好的泛化能力。此外,现有的声信号特征提取方法对声音的特征表达还具有较大的局限性。通过研究有效的声信号特征表达和深度学习方法,寻找更优的特征提取方法和结构化网络模型并在声目标识别上进行实践应用。(2)针对现实环境中不同场景下的背景噪声差距较大,采用固定阈值的端点检测常出现噪声和声目标有效特征混淆从而导致检测准确度较低的问题,提出了自适应的单参...
【文章来源】:西南科技大学四川省
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.3 本文的研究内容及组织结构
1.3.1 主要研究内容
1.3.2 组织结构
2 声信号的样本获取及预处理
2.1 声信号的样本获取
2.1.1 公共数据库
2.1.2 自建数据库
2.2 声信号的预处理
2.2.1 预加重
2.2.2 分帧加窗
2.2.3 端点检测
2.3 本章小结
3 声信号的特征参数提取方法
3.1 概述
3.2 常用时频特征
3.2.1 对数梅尔特征
3.2.2 耳蜗图特征
3.2.3 恒定Q变换特征
3.3 多频率分辨率特征
3.3.1 基本原理
3.3.2 参数选择依据
3.3.3 实验结果及分析
3.4 本章小结
4 声目标识别的网络模型
4.1 概述
4.2 深度可分离卷积
4.3 具有多特征通道的空间注意力网络模型
4.3.1 基本原理
4.3.2 网络结构
4.4 实验平台及网络训练参数设置
4.5 实验结果及分析
4.6 本章小结
5 声目标识别系统设计与实现
5.1 概述
5.2 声目标识别系统总体设计
5.3 声目标识别硬件与软件系统
5.3.1 硬件系统
5.3.2 软件系统及界面展示
5.3.3 仿真模式
5.3.4 学习模式
5.3.5 在线模式
5.4 声目标识别测试方案及结果
5.4.1 仿真模式测试
5.4.2 学习模式测试
5.4.3 在线模式测试
5.5 本章小结
总结与展望
论文总结
研究展望
致谢
参考文献
攻读硕士学位期间取得的研究成果
【参考文献】:
期刊论文
[1]一种时频平滑的深度神经网络语音增强方法[J]. 袁文浩,梁春燕,娄迎曦,房超,王志强. 西安电子科技大学学报. 2019(04)
[2]基于特征迁移的多物种鸟声识别方法[J]. 刘昊天,姜海燕,舒欣,徐彦,伍艳莲,郭小清. 数据采集与处理. 2017(06)
[3]公共场所典型异常声音的特征提取[J]. 栾少文,龚卫国. 计算机工程. 2010(07)
[4]基于MFCC和短时能量混合的异常声音识别算法[J]. 吕霄云,王宏霞. 计算机应用. 2010(03)
本文编号:3154063
【文章来源】:西南科技大学四川省
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.3 本文的研究内容及组织结构
1.3.1 主要研究内容
1.3.2 组织结构
2 声信号的样本获取及预处理
2.1 声信号的样本获取
2.1.1 公共数据库
2.1.2 自建数据库
2.2 声信号的预处理
2.2.1 预加重
2.2.2 分帧加窗
2.2.3 端点检测
2.3 本章小结
3 声信号的特征参数提取方法
3.1 概述
3.2 常用时频特征
3.2.1 对数梅尔特征
3.2.2 耳蜗图特征
3.2.3 恒定Q变换特征
3.3 多频率分辨率特征
3.3.1 基本原理
3.3.2 参数选择依据
3.3.3 实验结果及分析
3.4 本章小结
4 声目标识别的网络模型
4.1 概述
4.2 深度可分离卷积
4.3 具有多特征通道的空间注意力网络模型
4.3.1 基本原理
4.3.2 网络结构
4.4 实验平台及网络训练参数设置
4.5 实验结果及分析
4.6 本章小结
5 声目标识别系统设计与实现
5.1 概述
5.2 声目标识别系统总体设计
5.3 声目标识别硬件与软件系统
5.3.1 硬件系统
5.3.2 软件系统及界面展示
5.3.3 仿真模式
5.3.4 学习模式
5.3.5 在线模式
5.4 声目标识别测试方案及结果
5.4.1 仿真模式测试
5.4.2 学习模式测试
5.4.3 在线模式测试
5.5 本章小结
总结与展望
论文总结
研究展望
致谢
参考文献
攻读硕士学位期间取得的研究成果
【参考文献】:
期刊论文
[1]一种时频平滑的深度神经网络语音增强方法[J]. 袁文浩,梁春燕,娄迎曦,房超,王志强. 西安电子科技大学学报. 2019(04)
[2]基于特征迁移的多物种鸟声识别方法[J]. 刘昊天,姜海燕,舒欣,徐彦,伍艳莲,郭小清. 数据采集与处理. 2017(06)
[3]公共场所典型异常声音的特征提取[J]. 栾少文,龚卫国. 计算机工程. 2010(07)
[4]基于MFCC和短时能量混合的异常声音识别算法[J]. 吕霄云,王宏霞. 计算机应用. 2010(03)
本文编号:3154063
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3154063.html