声音事件识别中的有效特征提取方法研究
发布时间:2017-08-20 22:09
本文关键词:声音事件识别中的有效特征提取方法研究
更多相关文章: 声音事件识别 特征表示 特征融合 深层神经网络 卷积神经网络 频谱图特征 耳蜗图特征
【摘要】:近些年来,作为声音识别中的一个新兴的研究方向,“声音事件识别”因其广泛的应用前景,越来越受到研究学者们的关注。通过对声音事件,例如敲门声、掌声、脚步声,甚至鸟鸣声等,进行识别,能够感知所处的环境,并侦测出其发生的变化。因此,声音事件识别可以用于无人看守的安全监管、医疗救助,以及机器的智能化,同时也为实现更好的人机交互体验提供了可能。一方面,在几十年的发展过程中,研究学者们针对声音事件的识别任务,提出了一系列的特征提取方法和相应的识别系统,取得了突飞猛进的发展和进步。另一方面,随着人工智能技术的不断发展和突破,作为深度学习理论内容的一部分,深层神经网络因其强大的信息抽取和建模能力,在模式识别,自动控制,智能机器等诸多领域取得了显著的成就,尤其是在语音识别,图像理解等领域获得了突飞猛进的性能提升。目前声音事件识别系统在噪声环境较弱的情况下,识别效果很理想。但受声音事件自身特性的影响,随着噪声强度的不断增加,相应的识别效果普遍较差,未能取得令人满意的识别性能。为此,本文研究的重点和方向是,利用深层神经网络强大的对于信息提取和特征抽象的能力,提出能够对复杂噪声鲁棒的有效特征表示方法,进一步提升声音事件识别系统在噪声环境下的识别效果。主要包括以下几个方面内容:首先,提出了一种时频域非线性降采样的特征表示方法。由于传统的二维频谱图特征同时包含有时、频域的信息,为了使得到的频谱图特征具有更强的可区分性,本文提出了一种数据驱动式的时域和频域非线性降采样策略。频域上,通过分析噪声和不同种类的声音事件在不同频段上分布的差异性信息,确定相应的非线性降采样边界,对频谱图进行频域的非线性降采样。另一方面,在时域上,利用斐波那契数列来获取频谱图中不同长短的时域帧信息,并进行非线性降采样的操作。经过上述不同非线性降采样操作后得到的特征,将被送入相应的深层神经网络中进一步提取高层的抽象信息,并最终用来对声音事件进行识别。实验结果表明,,利用频域方差非线性映射的特征表示方法,能获得较优的性能提升,特别是在强噪声的环境下。其次,提出了一种基于神经网络的谱图时频域融合的特征表示方法。在将耳蜗图特征引入声音事件识别的基础上,尝试利用深层神经网络对两种不同的时频二维特征图进行拼接和融合,获得更有效的特征表示方法。基于不同的神经网络,提出了两种不同的特征融合策略,即文中提出的“双通道特征融合”和“底层特征融合”。其中,双通道的特征融合方法利用了卷积神经网络的特殊结构,将频谱图和耳蜗图同时送入卷积神经网络的不同通道中,经过卷积操作后再进行特征的拼接;而底层特征融合的方法是,在将不同谱图特征送入神经网络之前就进行拼接融合。实验结果发现,经过特征融合后的系统性能有显著的提升,且基于卷积神经网络的底层特征融合的系统性能更优。最后,在前两部分研究的基础上,提出了基于神经网络的谱图多分辨融合的特征表示方法。从综合利用谱图信息的局部和全局特征的角度出发,同样采用上述两种不同的特征融合策略,对不同分辨率的谱图特征进行拼接融合。为了获取不同分辨率信息的谱图特征,我们采用不同的窗长和窗移对原始的音频信号进行处理。若窗长和窗移较短,则谱图特征中的时域分辨率较高,但频域的分辨率则较差,可以获得较好的局部信息:反之,则能在较大的窗长和窗移下获得较为完整的全局信息。这两种不同分辨率的谱图特征,彼此具有互补性,通过融合能更好对声音事件进行区分和识别。实验结果也证明,利用不同分辨率谱图特征融合的方法可以进一步提升系统的识别准确率,并在强噪声环境下表现优异。
【关键词】:声音事件识别 特征表示 特征融合 深层神经网络 卷积神经网络 频谱图特征 耳蜗图特征
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
- 摘要5-7
- ABSTRACT7-14
- 主要符号对照表14-15
- 第一章 绪论15-25
- 1.1 声音事件识别简介15-18
- 1.1.1 研究方向15-16
- 1.1.2 相关应用16-17
- 1.1.3 面临挑战17-18
- 1.2 声音事件识别系统框架18-19
- 1.3 研究现状19-21
- 1.3.1 发展历程19-20
- 1.3.2 存在问题20-21
- 1.4 数据集介绍21-22
- 1.5 本文研究内容及组织框架22-25
- 1.5.1主要内容22-23
- 1.5.2 本文的组织框架23-25
- 第二章 声音事件识别的特征提取方法综述25-35
- 2.1 传统特征25-28
- 2.1.1 平稳特征25-27
- 2.1.2 非平稳特征27-28
- 2.2 基于神经网络的特征28-33
- 2.2.1 深度神经网络28-32
- 2.2.2 卷积神经网络32-33
- 2.3 本章小结33-35
- 第三章 基于时频域非线性映射的特征表示35-47
- 3.1 基于频域方差非线性映射的特征表示35-44
- 3.1.1 研究动机35-36
- 3.1.2 频域筛选的频谱图特征(FSM-SIF)36-37
- 3.1.3 频域方差的计算37-38
- 3.1.4 非线性映射边界的确定38-40
- 3.1.5 系统框架及实验配置40-41
- 3.1.6 实验结果与讨论41-44
- 3.2 基于时域非线性映射的特征表示44-45
- 3.3 本章小结45-47
- 第四章 基于神经网络的谱图时频域融合特征表示47-57
- 4.1 研究动机47
- 4.2 耳蜗图特征的引入47-50
- 4.2.1 耳蜗图简介47-48
- 4.2.2 耳蜗图与DNN48-49
- 4.2.3 耳蜗图与CNN49-50
- 4.3 去噪处理50-51
- 4.4 双通道特征融合51-53
- 4.4.1 实验框架52-53
- 4.4.2 实验结果53
- 4.5 底层特征融合53-55
- 4.5.1 实验框架53-54
- 4.5.2 实验结果54-55
- 4.6 本章小结55-57
- 第五章 基于神经网络的谱图多分辨率融合特征表示57-67
- 5.1 研究动机57
- 5.2 实验框架57-59
- 5.3 频谱图多分辨率融合的特征表示59-61
- 5.3.1 实验配置59
- 5.3.2 分辨率的确定59-60
- 5.3.3 实验结果60-61
- 5.4 耳蜗图多分辨率融合的特征表示61-63
- 5.4.1 实验配置61
- 5.4.2 分辨率的确定61-63
- 5.4.3 实验结果63
- 5.5 不同融合特征性能对比63-66
- 5.6 本章小结66-67
- 第六章 总结67-71
- 6.1 本文的主要贡献67-68
- 6.2 后续研究展望68-71
- 参考文献71-75
- 致谢75-77
- 在读期间发表的学术论文与取得的研究成果77-78
【参考文献】
中国博士学位论文全文数据库 前1条
1 冷严;复杂音频的事件检测与分类中的关键问题研究[D];北京邮电大学;2012年
本文编号:709134
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/709134.html