基于深度学习和迁移学习的环境声音识别

发布时间：2017-11-23 12:32

本文关键词：基于深度学习和迁移学习的环境声音识别

【摘要】：作为一种感知周围环境十分有效的方法,环境声音识别(Enviorment Sound Recognition,ESR)被广泛的应用在机器人导航、移动机器人、音频检索、音频取证以及其它基于情景感知、可穿戴的应用中。目前,多种经典的分类器被广泛的应用在ESR问题中,但其性能还远未达到理想的水平,为了进一步提升ESR性能,本文首先引入了深度学习技术,深度神经网络作为一种高性能、多层级的神经网络,已经被广泛证明在提取数据特征和建立识别模型方面具有一定优势。声音因采集时无方向要求、且始终蕴含环境信息等优势,在环境识别时扮演主要角色,但考虑到一般情况下采集音频时容易获取若干辅助的视频信息,而且显然多模态信息更有助于提升环境识别的准确率,所以本文在构建基于深度神经网的环境识别方法时,同时利用音频特征和辅助视频特征。此外,针对在实际应用中环境类别非常多,新的识别需求不断涌现,针对新类别的数据标注和训练开销过大的问题,提出基于迁移学习的环境声音识别方法,基于已建模的相似环境类,和新类别的少量标注数据,学习得到新环境类别模型。本文将深度神经网络应用在环境声音识别问题中,为了充分利用声音特征和辅助视频特征,本文对如何融合两种模态信息进行探讨,提出两种特征融合方法,分别为基于特征的融合以及基于模型的融合。基于特征融合的环境声音识别方法,将音频特征和视频特征直接拼接作为深度信念网络(Deep Belief Network,DBN)的输入,并通过训练DBN进行环境场景的识别;基于模型融合的环境声音识别方法分别对音频信息和辅助视频信息建立DBN模型,并调至最优性能,然后用一个新的DBN用来代替原有两个DBN的输出层以实现模型融合,最终通过训练新的DBN进行环境声音识别。实验结果表明,基于模型融合的方法取得了最好的效果,识别性能相较于其它方法和基线系统有明显的提升本文提出基于迁移学习的环境声音建模方法,堆叠去噪自编码网络(Stacked Denoised Auto Encoder,SDA)的无监督训练较为简单,并能良好的学习数据集的特征,为其和迁移学习的融合提供了良好的基础。本文在迁移学习的框架下,结合SDA网络,通过衡量新环境类别的语料与现有环境语料之间的关系实现识别模型的迁移,实验表明此方法能有效地区分新场景,准确率有明显提升。在迁移学习理论框架下,反观DBN的预训练与微调过程,提出基于通用预训练的方法。该方法采用扩大DBN预训练数据集规模的策略,达到待识别数据只需在此通用预训练基础上进行快速的微调过程即可实现分类的目的。实验结果表明,此方法可以显著的提升待识别数据的性能,且用以扩大训练集的数据可以包括非场景数据,初步实验表明,部分说话人数据的加入有利于提升系统的稳定性和鲁棒性。
【学位授予单位】：哈尔滨工业大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TN912.34

【相似文献】

中国期刊全文数据库前10条

1 张宏超;声音识别简介[J];信息与控制;1979年03期

2 刘砾;日研制成功世界上第一个连续声音识别系统[J];国外自动化;1979年Z1期

3 王宪忠;;前景光明的声音识别技术[J];华夏星火;2001年09期

4 郭利刚;方土富;;智能声音识别技术在广播电视广告监测中的应用[J];广播与电视技术;2006年12期

5 施智雄;;基于声音识别的气味发生装置设计与实现[J];电声技术;2009年05期

6 蔡时昊;颜伟国;;智能声音识别技术构建广播电视广告节目监测系统[J];信息通信;2012年03期

7 王再欢;唐云建;韩鹏;;一种利用声音识别的森林盗伐检测方法[J];计算机工程与应用;2012年30期

8 甘振新 ,金世龙;关于声音识别的一些研究课题[J];信息与控制;1979年03期

9 千叶 ,成美 ,刘小立 ,祝景成;声音识别技术的现状与未来[J];国外自动化;1983年02期

10 碧仁 ,陈淑媛;国内外市场大视野[J];现代情报;1993年01期

中国重要会议论文全文数据库前3条

1 杨曜;郭斌;於志文;;一种基于背景声音识别的社会情境感知方法[A];第八届和谐人机环境联合学术会议（HHME2012)论文集PCC[C];2012年

2 张明瀚;石为人;丁宁;;一种基于学习的异常声音识别研究[A];2009中国仪器仪表与测控技术大会论文集[C];2009年

3 高思泽;倪邦发;张贵英;赵常军;肖才锦;刘存兄;刘超;管永精;;过热液滴探测器的声音识别系统设计[A];第十二届全国活化分析学术交流会论文摘要汇编[C];2010年

中国重要报纸全文数据库前3条

1 日立邋编译;声音识别：下一代手机输入接口[N];中国电子报;2007年

2 本报驻以色列记者　田学科;藏在舌尖上的“身份证”[N];科技日报;2006年

3 李莉;反恐战场另类“灵眼”[N];中国国防报;2004年

中国博士学位论文全文数据库前1条

1 张文娟;基于听觉仿生的目标声音识别系统研究[D];中国科学院研究生院（长春光学精密机械与物理研究所）;2012年

中国硕士学位论文全文数据库前10条

1 张楠;西湖之声“杭州味道”品牌战略方案评估和建议[D];浙江大学;2015年

2 张苏楠;基于视频跟踪与多模型声音识别的猪行为检测与分析[D];太原理工大学;2016年

3 张小霞;基于能量检测的复杂环境声音识别[D];福州大学;2014年

4 尤冠瑜;基于时间编码的环境声音识别[D];福州大学;2013年

5 王熙;基于多频段谱减法的鲁棒性生态环境声音识别[D];福州大学;2013年

6 颜鑫;真实噪声下利用抗噪幂归一化倒谱系数的两层鲁棒环境声音识别[D];福州大学;2013年

7 史秋莹;基于深度学习和迁移学习的环境声音识别[D];哈尔滨工业大学;2016年

8 胡志峰;基于嵌入式声音识别技术的列车预警研究[D];西南交通大学;2007年

9 黄伟鸿;工厂噪声环境下声音识别系统的设计与实现[D];中山大学;2014年

10 吴弘;空中目标声音识别技术的研究[D];南京理工大学;2004年

，

本文编号：1218500

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1218500.html

上一篇：基于时空特征的异常行为建模与检测算法研究
下一篇：太赫兹体硅MEMS准对角喇叭天线及AIP系统虚拟仿真设计平台技术

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|