基于循环神经网络的声音识别
发布时间:2023-05-23 19:47
声音是一种最常见的信息载体,可以作为信息传递的媒介。并且声学传感器相比于其他类型的传感器来说,在隐蔽性上做的更好,成本很低,在受到电磁干扰的情况时,抗外界干扰能力比其他类型的传感器更强。现在,声音识别在各行各业中都得到了广泛应用。因此,对于声音目标识别的研究具有重大意义。特征提取和分类两个模块是研究声音识别的两个核心部分,在传统方法中,一般是通过人工方式提取特征,这对个人的经验要求很高。另外,一些特定环境中复杂的声音特征很难被人工提取出来。这就会导致无法进行分类器的构建以及复杂声音的分类。深度学习算法,其作为智能感知算法,可以高效的挖掘类别属性与深层特征。基于深度学习的理论基础,本文提出了利用深度学习中不同神经网络的算法来构建分类器,用来实现声音目标的识别。由此,本文基于对声音特征提取与分类识别两个主要模块,设计了适用于处理音频信号的卷积神经网络(CNN)和循环神经网络(RNN)两种不同的深度学习算法来对声音信息进行特征提取,训练,最后实现正确分类。本文的创新主要有以下4点:(1)利用深度学习模型设计了发动机噪声识别系统。(2)利用卷积神经网络对多噪声源多时长的声音特征进行提取。(3)...
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
缩略词表
1 绪论
1.1 研究的背景及意义
1.2 国内外研究现状
1.3 本论文的结构安排
2 声音识别方案设计的理论基础
2.1 预处理
2.1.1 预加重
2.1.2 信号分帧
2.1.3 信号加窗
2.2 特征的提取
2.2.1 梅尔频率倒谱系数(MFCC)
2.3 深度学习网络的基础知识
2.3.1 常见的激活函数和损失函数
2.3.2 卷积神经网络的基础知识
2.3.3 循环神经网络的基础知识
2.4 神经网络的训练
2.4.1 神经网络的正向传播
2.4.2 神经网络的反向传播
2.5 本章小结
3 基于深度学习模型的多噪声源识别系统
3.1 设计背景
3.2 系统总体架构
3.3 声音文件的预处理
3.3.1 噪声窗的选取
3.3.2 声音文件的分析处理
3.4 声音文件多步长提取FFT特征
3.5 多维度MFCC的特征提取
3.6 多时长声音信息的特征提取
3.6.1 MFCC特征归一化
3.6.2 基于卷积神经网络特征的优化处理
3.6.3 基于卷积神经网络的特征提取模型设计
3.7 基于循环神经网络的优化处理
3.8 网络算法的优化
3.9 实验方案及训练流程
3.9.1 数据集
3.9.2 实验环境
3.9.3 基于循环神经网络的训练流程
3.9.4 基于循环神经网络的训练方案
3.10 本章小结
4 实验结果及分析
4.1 模型性能评估指标
4.2 对原始音频数据的分析
4.3 基于循环神经网络的识别结果分析
4.3.1 基于特征提取BN层优化的识别结果分析
4.3.2 基于不同FFT长度的声音识别结果分析
4.3.3 基于不同维度长度的MFCC的循环神经网络的模型分析
4.3.4 基于循环神经网络不同网络结构的分析
4.3.5 加深网络层数对识别效果的影响
4.4 本章小结
5 结论与展望
5.1 结论
5.2 工作展望
参考文献
攻读学位期间发表的论文与研究成果清单
致谢
本文编号:3822250
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
缩略词表
1 绪论
1.1 研究的背景及意义
1.2 国内外研究现状
1.3 本论文的结构安排
2 声音识别方案设计的理论基础
2.1 预处理
2.1.1 预加重
2.1.2 信号分帧
2.1.3 信号加窗
2.2 特征的提取
2.2.1 梅尔频率倒谱系数(MFCC)
2.3 深度学习网络的基础知识
2.3.1 常见的激活函数和损失函数
2.3.2 卷积神经网络的基础知识
2.3.3 循环神经网络的基础知识
2.4 神经网络的训练
2.4.1 神经网络的正向传播
2.4.2 神经网络的反向传播
2.5 本章小结
3 基于深度学习模型的多噪声源识别系统
3.1 设计背景
3.2 系统总体架构
3.3 声音文件的预处理
3.3.1 噪声窗的选取
3.3.2 声音文件的分析处理
3.4 声音文件多步长提取FFT特征
3.5 多维度MFCC的特征提取
3.6 多时长声音信息的特征提取
3.6.1 MFCC特征归一化
3.6.2 基于卷积神经网络特征的优化处理
3.6.3 基于卷积神经网络的特征提取模型设计
3.7 基于循环神经网络的优化处理
3.8 网络算法的优化
3.9 实验方案及训练流程
3.9.1 数据集
3.9.2 实验环境
3.9.3 基于循环神经网络的训练流程
3.9.4 基于循环神经网络的训练方案
3.10 本章小结
4 实验结果及分析
4.1 模型性能评估指标
4.2 对原始音频数据的分析
4.3 基于循环神经网络的识别结果分析
4.3.1 基于特征提取BN层优化的识别结果分析
4.3.2 基于不同FFT长度的声音识别结果分析
4.3.3 基于不同维度长度的MFCC的循环神经网络的模型分析
4.3.4 基于循环神经网络不同网络结构的分析
4.3.5 加深网络层数对识别效果的影响
4.4 本章小结
5 结论与展望
5.1 结论
5.2 工作展望
参考文献
攻读学位期间发表的论文与研究成果清单
致谢
本文编号:3822250
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3822250.html