基于深层神经网络的多声音事件检测方法研究
发布时间:2020-08-04 08:58
【摘要】:声音作为人类感知周围环境和相互交流的重要信息来源,一直受到广泛研究者的关注和青睐。多声音事件检测就是使用机器对声音进行分析,判断出其中包含的内容,比如是“讲话声”还是“脚步声”,或者“讲话声”和“脚步声”同时发生。声音事件检测在安全监控、异常检测、情景感知、生物监测和内容检索中有着广泛的应用前景。传统的多声音事件检测系统主要使用非负矩阵分解(Non-negative matrix factorization,NMF)、高斯混合模型和隐马尔可夫模型(GMM-HMM)等。近几年,随着深度学习的迅速发展,基于深度神经网络的方法给检测性能带来了突破性进展。深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Networks,RNN)相继在声音事件检测中获得了成功应用。然而,这些基于深度神经网络的方法没有针对性地解决多声音事件检测中的两个难点问题:事件间重叠以及数据量较少。因此目前事件检测的整体性能还比较低,这给其实用化带来了巨大的困难。本文围绕上述的两个难点问题,展开基于深度神经网络的多声音事件检测方法的研究。首先,从有效特征提取的角度出发,搭建了基于CNN-RNN的基线系统。我们使用CNN提取特征中的事件谱结构信息,并使用RNN对时间上下文信息建模。实验结果表明,和传统方法相比,这种方法可以取得更好的检测性能。其次,从事件重叠的角度出发,提出了基于CapsNet-RNN的多声音事件检测模型。我们使用胶囊对事件进行多角度建模,利用路由算法让网络从局部特征预测事件,并在此基础上使用RNN学习上下文信息。实验表明,这种方法在识别不同事件时具有挑选特征频带和通道的能力,有效提升了重叠事件的检测性能。此外,从当前标注数据集较小的角度出发,将自训练的半监督学习方法应用于多声音事件检测。实验表明该方法可以显著增加可训练数据,改善检测性能。最后,构建了两个基于变压器的声音数据库,并在变压器场景下验证了上述CNN-RNN和CapsNet-RNN方法的有效性。
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP183;TN912.3
【图文】:
;;对某个观点或行为的赞同。声音事件检测(Sound邋Event邋Detection,邋SED),就逡逑机器设备能够分辨声音中的这些事件内容,即精确地标注出输入声音信号逡逑个事件的开始和结束时间信息。声音事件检测与数字信号处理、概率论、数逡逑计、人工智能、计算机以及yL经生理学有着密不可分的关系,是广泛关联的逡逑课题,具有重要的研宄价值。逡逑从任务类型来区分,声音事件检测分为单声音事件检测(Monophonic邋Sound逡逑ent邋Detection,邋MSED)和多声音事件检测(Polyphonic邋Sound邋Event邋Detection,逡逑ED)。单声音事件检测任务中每个时刻至多只检测出一种事件,而在多声音事逡逑测中每个时刻则可能同时检测出两个或两个以上的事件。一个多声音事件逡逑的例子见图丨.1,图中上部分为音频波形,下部分为几个事件的出现时间。显逡逑易见,大部分实际场景是多个事件同时发生,这使得多声音事件检测比单声音逡逑检测有更高的研宄价值和应用价值。本课题所研宄的内容即为多声音事件逡逑。需要说明的是,本文中未经特殊说明,“事件检测”或者“声音事件检测”逡逑“多声音事件检测”,“事件”特指“声音事件”。逡逑/逦邋'邋\逡逑
图1.2基于深度神经网络的多声音事件检测系统框架逡逑(1)特征提取模块逡逑从音频中提取声音特征。一般情况下,以20-200ms为帧长进行分帧,随后以帧逡逑为单位计算声学特征,常用的特征有梅尔倒谱系数(MFCC)[19,77】、梅尔能量(Mel逡逑Energies)163-64】、幅度谱(Amplitude邋Spectrum)丨78】和功率谱(Power邋Spectrum)[61]等。逡逑得到特征后,根据模型选择是否对特征值进行幅度归一化以及分段操作。此外,逡逑也可以在提取特征前对音频进行幅度归一化、声源分离、噪声抑制等预处理。逡逑(2)标注读取模块逡逑标注读取主要是从文本标签中提取事件发生和结束的时间信息,将其按照逡逑特征的长度转化成离散序列串,使得标注和特征在帧级别上一一对应。最终将标逡逑注数值化为二值矩阵,矩阵的横轴代表帧的序号,纵轴代表不同事件(见图1.2中逡逑的标注数值化矩阵),相应事件出现的位置值为I,否则为0。例如以40ms为帧逡逑长,20ms为帧移,事件A发生在0.60s-0.68s这段时间,则二值矩阵中第31帧逡逑一
2.2.2基于DNN的检测模型逡逑基于DNN的多声音事件检测模型是被证明优于GMM-HMM或者NMF模逡逑型的,其模型框图如图2.2所示。与典型的GMM-HMM或者NMF相比,DNN模逡逑型有如下特点:1)可以处理多分类任务;2)具有更强的特征编码能力;3)可以逡逑适应各种类型的输入特征。逡逑1|010 ̄---|邋1邋10|逦一?预测向量邋t逡逑0.91邋0.1邋I邋0.2|邋?邋??邋1邋0.810.11逦—?后验概率p逡逑逦隐邋yL逦逡逑逦隐层L-1逦逡逑隐层2逡逑逦^1逦逡逑p逦■邋一^特征、逡逑图2.2基于DNN的多声音事件检测模型逡逑在基于DNN的多声音事件检测系统中,对音频分帧后分别估计每帧中所有逡逑事件的出现概率卩(3^(/0丨\,0),这里化为类别编号&邋=邋1,2,...,尺,其中0是分逡逑类器的参数,输入特征&是从第f帧提取的音频特征,欠是总事件类别数。随逡逑后,输入特征七送入DNN后经过一系列隐层,且在最后一层(隐层L)使用逡逑Sigmoid作为非线性激活函数。测试时采用固定的阈值"对隐层L得到的后验概逡逑率jPCVt(fc)|\,0)进行判决,若后验概率P(3^(fc)lxf,0)大于阈值M则认为事件i逡逑出现,否则认为该事件没有出现,分别用丨和0来表示。模型的最后得到每个事逡逑件是否出现的预测向量负,长度为类别数欠。逡逑需要注意的是
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP183;TN912.3
【图文】:
;;对某个观点或行为的赞同。声音事件检测(Sound邋Event邋Detection,邋SED),就逡逑机器设备能够分辨声音中的这些事件内容,即精确地标注出输入声音信号逡逑个事件的开始和结束时间信息。声音事件检测与数字信号处理、概率论、数逡逑计、人工智能、计算机以及yL经生理学有着密不可分的关系,是广泛关联的逡逑课题,具有重要的研宄价值。逡逑从任务类型来区分,声音事件检测分为单声音事件检测(Monophonic邋Sound逡逑ent邋Detection,邋MSED)和多声音事件检测(Polyphonic邋Sound邋Event邋Detection,逡逑ED)。单声音事件检测任务中每个时刻至多只检测出一种事件,而在多声音事逡逑测中每个时刻则可能同时检测出两个或两个以上的事件。一个多声音事件逡逑的例子见图丨.1,图中上部分为音频波形,下部分为几个事件的出现时间。显逡逑易见,大部分实际场景是多个事件同时发生,这使得多声音事件检测比单声音逡逑检测有更高的研宄价值和应用价值。本课题所研宄的内容即为多声音事件逡逑。需要说明的是,本文中未经特殊说明,“事件检测”或者“声音事件检测”逡逑“多声音事件检测”,“事件”特指“声音事件”。逡逑/逦邋'邋\逡逑
图1.2基于深度神经网络的多声音事件检测系统框架逡逑(1)特征提取模块逡逑从音频中提取声音特征。一般情况下,以20-200ms为帧长进行分帧,随后以帧逡逑为单位计算声学特征,常用的特征有梅尔倒谱系数(MFCC)[19,77】、梅尔能量(Mel逡逑Energies)163-64】、幅度谱(Amplitude邋Spectrum)丨78】和功率谱(Power邋Spectrum)[61]等。逡逑得到特征后,根据模型选择是否对特征值进行幅度归一化以及分段操作。此外,逡逑也可以在提取特征前对音频进行幅度归一化、声源分离、噪声抑制等预处理。逡逑(2)标注读取模块逡逑标注读取主要是从文本标签中提取事件发生和结束的时间信息,将其按照逡逑特征的长度转化成离散序列串,使得标注和特征在帧级别上一一对应。最终将标逡逑注数值化为二值矩阵,矩阵的横轴代表帧的序号,纵轴代表不同事件(见图1.2中逡逑的标注数值化矩阵),相应事件出现的位置值为I,否则为0。例如以40ms为帧逡逑长,20ms为帧移,事件A发生在0.60s-0.68s这段时间,则二值矩阵中第31帧逡逑一
2.2.2基于DNN的检测模型逡逑基于DNN的多声音事件检测模型是被证明优于GMM-HMM或者NMF模逡逑型的,其模型框图如图2.2所示。与典型的GMM-HMM或者NMF相比,DNN模逡逑型有如下特点:1)可以处理多分类任务;2)具有更强的特征编码能力;3)可以逡逑适应各种类型的输入特征。逡逑1|010 ̄---|邋1邋10|逦一?预测向量邋t逡逑0.91邋0.1邋I邋0.2|邋?邋??邋1邋0.810.11逦—?后验概率p逡逑逦隐邋yL逦逡逑逦隐层L-1逦逡逑隐层2逡逑逦^1逦逡逑p逦■邋一^特征、逡逑图2.2基于DNN的多声音事件检测模型逡逑在基于DNN的多声音事件检测系统中,对音频分帧后分别估计每帧中所有逡逑事件的出现概率卩(3^(/0丨\,0),这里化为类别编号&邋=邋1,2,...,尺,其中0是分逡逑类器的参数,输入特征&是从第f帧提取的音频特征,欠是总事件类别数。随逡逑后,输入特征七送入DNN后经过一系列隐层,且在最后一层(隐层L)使用逡逑Sigmoid作为非线性激活函数。测试时采用固定的阈值"对隐层L得到的后验概逡逑率jPCVt(fc)|\,0)进行判决,若后验概率P(3^(fc)lxf,0)大于阈值M则认为事件i逡逑出现,否则认为该事件没有出现,分别用丨和0来表示。模型的最后得到每个事逡逑件是否出现的预测向量负,长度为类别数欠。逡逑需要注意的是
【相似文献】
相关期刊论文 前10条
1 ;更正启示[J];测绘与空间地理信息;2017年11期
2 续宏;赵文洁;;高速公路事件检测系统发展趋势[J];中国交通信息化;2012年11期
3 张婧丽;周文tD;洪宇;姚建民;周国栋;朱巧明;;基于框架语义扩展训练集的有监督事件检测方法[J];中文信息学报;2019年05期
4 汤伟;付雅文;;大规模RFID复杂事件检测优化技术研究[J];信息与电脑(理论版);2009年10期
5 王亚;徐传飞;陈艳格;;基于内外存调度的长过程复杂事件检测[J];计算机科学;2012年08期
6 王永恒;杨圣洪;郭波;;高效的射频识别数据流层次复杂事件检测[J];计算机工程;2010年06期
7 刘娜;;视频事件检测系统技术方案升级及管理新思路浅谈[J];中国交通信息化;2018年06期
8 陆W毥
本文编号:2780333
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2780333.html