基于深度学习的声音场景检测的研究
发布时间:2021-12-30 14:13
声音载有人类日常环境和在其发生事件的大量信息,人类可以感受到自己所处的声音场景(海边,大街等),并识别出各个声源(海浪,汽车声等)。音频信号自动检测技术在音频文件的内容搜索和移动设备的情境感知等方面都有着广阔的应用前景,故而人们对该项技术展开了一系列研究。但由于多个声源叠加或环境噪音干扰等原因,基于机器学习的声音自动检测技术的可靠性一直都不高,所以人类在机器学习领域仍然需要大量的研究才能准确地识别现实场景中的单个声源和声音场景。声音场景识别指的是人类或人工系统从流媒体或音频记录中识别音频内容(标签)的任务,传统的声音识别问题往往是通过数字信号处理或者简单的分类器解决,而现在随着深度学习的普及,传统的识别方法需改善应对未来的应用需求。本文主要的研究内容是使用深度学习的方法识别声音场景。主要实现过程是使用改进后的深层卷积神经网络组建一个多特征的弱学习器组,再使用集成学习策略组建强学习器,以构建一个用于声场识别任务的基于多谱图集成学习系统。由于深度学习本身对数据量是有一定要求的,所以为了解决音频源文件数量不足的问题,本文首先尝试对音频文件进行数据扩充。具体做法上,使用了生成式对抗神经网络的拓...
【文章来源】:成都理工大学四川省
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
卷积神经网络结构图
声场识别的基线系统的主体结构与大多聚类深度学习任务类似,从前到后的流程为原始数据集输入,数据扩充,特征提取,训练学习器,获得分类器,评估结果,如图2-1:图 2-1 基线系统的基本结构图如图2-1中流程所示,在拥有了源音频数据集后,可能由于音频的数据不足的问题进行数据扩充,既可以对原始数据(源音频波形文件)进行学习创造新的波形文件,也可以对音频特征进行学习以创造音频特征的扩充数据。对于音频的特征提取,本章将使用两种方法,其一是经典的声学特征处理方法——梅尔频率倒谱系数(MFCC),由Davis et al.(1980)提出,将在本章第3节中阐述;其二是一种较新的音频特征提取方法——谐波冲击分离,由Fitzgeral(2010)提出
图2-2 MFCC实现流程图(1)将信号进行分帧处理,为每个帧提取一组梅尔频谱系数即时域信号S ( n )。将所有样本的时域信号 S ( n )组合成 ( )iS n 。对 ( )iS n 计算离散傅里叶变换(DFT),得 ( )iS k ,其中 i 表示相对帧数; ( )iP k 是帧 i 的功率谱。
本文编号:3558362
【文章来源】:成都理工大学四川省
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
卷积神经网络结构图
声场识别的基线系统的主体结构与大多聚类深度学习任务类似,从前到后的流程为原始数据集输入,数据扩充,特征提取,训练学习器,获得分类器,评估结果,如图2-1:图 2-1 基线系统的基本结构图如图2-1中流程所示,在拥有了源音频数据集后,可能由于音频的数据不足的问题进行数据扩充,既可以对原始数据(源音频波形文件)进行学习创造新的波形文件,也可以对音频特征进行学习以创造音频特征的扩充数据。对于音频的特征提取,本章将使用两种方法,其一是经典的声学特征处理方法——梅尔频率倒谱系数(MFCC),由Davis et al.(1980)提出,将在本章第3节中阐述;其二是一种较新的音频特征提取方法——谐波冲击分离,由Fitzgeral(2010)提出
图2-2 MFCC实现流程图(1)将信号进行分帧处理,为每个帧提取一组梅尔频谱系数即时域信号S ( n )。将所有样本的时域信号 S ( n )组合成 ( )iS n 。对 ( )iS n 计算离散傅里叶变换(DFT),得 ( )iS k ,其中 i 表示相对帧数; ( )iP k 是帧 i 的功率谱。
本文编号:3558362
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3558362.html