基于混合卷积神经网络模型的音频场景分类
发布时间:2025-04-01 04:38
音频信号包含很多信息内容,通过音频信号处理技术,人们可以更好感知和理解周围的环境,因此该技术已经被广泛应用于监控、助听器设备和智能终端等领域。音频标签数据相比于图像信息数据采集更简单,占用内存更小,记录的音频标签很容易表达出信息内容。随着互联网技术的快速发展,对于音频场景分类算法的应用研究越来越多。音频场景分类是通过对音频标签信息进行分析,理解音频语义特证,从而达到识别和理解周围环境内容的目的。音频场景分类的系统设计包括特征提取和分类器模型构建两部分。采用的特征提取方式主要有梅尔声谱图和梅尔频率倒谱系数。在相同卷积神经网络结构和模型参数下,分别采用这两种特征进行提取和分类实验。实验结果显示梅尔频率倒谱系数可以更好展现不同类别音频信号本质特征的差异,并且每类音频场景标签的精确率结果都比梅尔声谱图要高。卷积神经网络通过对音频信号的图像特征进行非线性特征映射,通过有效训练来提高模型的性能。由于单一的卷积神经网络分类容易产生过拟合等问题,所以需要对系统神经网络算法进行优化实验,主要引进了长短时记忆网络和极度梯度提升算法。考虑到音频信号具有时序性,在卷积神经网络提取抽象特征之后引入了长短时记忆网络...
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
本文编号:4038931
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
图2.1音频场景分类基本原理
内蒙古科技大学硕士学位论文-9-2音频场景分类理论基础本章2.1节主要介绍了音频场景分类问题的基本流程,主要对音频信号进行预处理,预处理之后进行特征提取,提取到的特征由神经网络模型进行训练和分类。2.2节介绍了音频预处理的过程,预处理是对音频信号进行预加重、分帧和加窗操作。2.3....
图2.2帧长和帧移
内蒙古科技大学硕士学位论文-11-图2.2帧长和帧移2.2.3加窗通过分帧将音频信号分成每一帧信号,每一帧信号两端将丢失一些信息,音频信息不再根据时间连续音频信息内容,分帧的操作越多,越容易丢失音频信息,不能很好的表达音频特性,通过引入窗函数与帧信号进行相乘,使分帧之后的帧信号内....
图2.3梅尔声谱图提取过程
内蒙古科技大学硕士学位论文-12-就会降低。对于音频场景分类加窗函数选取汉明窗,采用汉明窗的函数使频谱来变得光滑,有利于表达音频的特性。2.3特征提取音频场景分类系统模型中,特征提取是重要的一步,决定了能不能准确有效的提取出音频信号的特性。不同的音频信号提取的特征要有很大的音频信....
图3.1CNN网络结构
内蒙古科技大学硕士学位论文-19-3基于CNN的音频场景分类本章3.1节主要介绍基于CNN的基本原理与学习过程,对卷积神经网络结构进行分析。3.2节主要进行Mel声谱图和MFCC特征提取,得到城市音频数据集的特征图,在相同卷积神经网络结构和参数下对这两种特征提取方式进行对比实验,....
本文编号:4038931
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/4038931.html
上一篇:基于智能手机的光学相机通信系统设计与实现
下一篇:没有了
下一篇:没有了