基于LSTM网络的声学场景在线检测系统
发布时间:2020-07-02 03:02
【摘要】:随着互联网的发展,多媒体技术的提升以及移动设备的大量普及,出现了大量的以线上直播为主要业务的网络平台。以短视频分享为主要业务的应用也日渐流行,目标用户也越来越广泛。平台和应用上承载的数据量之大、种类之庞杂,给用户搜索想要的数据资源带来了极大不便,同时也给网络数据的监管造成了麻烦。本文针对上述多媒体应用中的在线音频数据,搭建一套可以识别音频声学场景类别的在线检测系统。论文的主要内容有:(1)基于混合高斯模型(Gaussian Mixed Model,GMM)的声学场景识别方法。本文简要介绍了DCASE2016 Task1声学场景识别比赛,以及基于GMM的声学场景识别基线系统。该基线系统所使用的特征是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)。对每个场景类型训练一个GMM模型。分类时,在各GMM模型的输出中选出最大值,其对应的类作为数据的预测类别。(2)基于长短时记忆网络(Long Short Term Memory Network,LSTM)的声学场景识别方法。其主要目的是利用基于LSTM网络的声学场景识别模型,对具有鲜明声学场景特性的音频流进行区分。文中在介绍LSTM网络结构特点的基础上,阐述了与所研究模型相关的音频预处理、特征提取、分段处理、LSTM识别模型的训练和测试等过程,最后给出了该识别模型的测试结果。该方法使用DCASE2016 Task1声学场景识别比赛的数据集,最高达到了81.8%的准确率。(3)在线检测系统设计与实现。在线音频数据中的声学场景类别是开集,离线的训练数据无法包含在线数据中的所有类别。因此本文提出了一种能够动态区分在线数据中是否含有新类别数据的系统框架,并且能够及时地将新类别纳入到在线检测系统进行分析。为此设计了GMM区分模型以及基于LSTM的声学场景识别模型。最后,系统的测试结果表明基于LSTM的识别模型可以进行声学场景的在线分类,新的声学场景类别可以被系统接受并识别。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34
【图文】:
LSTM 网络为了解决 RNN 中出现的梯度消失和梯度爆炸的问题,学者们提出方案,包括:通过正交初始化避免训练初期阶段的梯度消失或爆炸ctified Linear Unit)激活函数缓解梯度消失现象、梯度剪切解决梯度LSTM 单元控制梯度消失等[1]。其中 LSTM 已经成功应用于机器翻译、对话生成等领域,展现出了出色的建模能力。因此本文基于 LSTM 网络单元搭建声学场景识别可以充分利用其任意长度序列均可作为输入的特点,将之利用于在别中。LSTM 通过引入单元状态(cell state)和三个控制门:输入门(input g门(output gate)、遗忘门(forget gate)来解决 RNN 不能处理长题[38]。其单元结构如图 3-2 所示。
第 4 章 在线检测系统的设计与实现为了减少在拒识数据中发现新类别的人工干涉,对那些留存的拒识数据进行分类时,采用 Canopy 聚类算法[49]预先对这些数据进行聚类,然后可以通过人工核验的方式确定所聚出的新类别的意义,并进行标注。这些新类别数据连同可识别数据一起形成再训练数据集,用于在原有 LSTM 识别模型基础上进行再训练,得到新的 LSTM 识别模型。同时也使用再训练数据集重新训练 GMM区分模型,使得新类别数据在新模型被启用后也可以被顺利接收。综上所述,系统可以在接收、识别新类别数据的能力上,进行动态的增量提升。声学场景在线检测的增量模型框架大致如图 4-1 所示。
本文编号:2737646
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34
【图文】:
LSTM 网络为了解决 RNN 中出现的梯度消失和梯度爆炸的问题,学者们提出方案,包括:通过正交初始化避免训练初期阶段的梯度消失或爆炸ctified Linear Unit)激活函数缓解梯度消失现象、梯度剪切解决梯度LSTM 单元控制梯度消失等[1]。其中 LSTM 已经成功应用于机器翻译、对话生成等领域,展现出了出色的建模能力。因此本文基于 LSTM 网络单元搭建声学场景识别可以充分利用其任意长度序列均可作为输入的特点,将之利用于在别中。LSTM 通过引入单元状态(cell state)和三个控制门:输入门(input g门(output gate)、遗忘门(forget gate)来解决 RNN 不能处理长题[38]。其单元结构如图 3-2 所示。
第 4 章 在线检测系统的设计与实现为了减少在拒识数据中发现新类别的人工干涉,对那些留存的拒识数据进行分类时,采用 Canopy 聚类算法[49]预先对这些数据进行聚类,然后可以通过人工核验的方式确定所聚出的新类别的意义,并进行标注。这些新类别数据连同可识别数据一起形成再训练数据集,用于在原有 LSTM 识别模型基础上进行再训练,得到新的 LSTM 识别模型。同时也使用再训练数据集重新训练 GMM区分模型,使得新类别数据在新模型被启用后也可以被顺利接收。综上所述,系统可以在接收、识别新类别数据的能力上,进行动态的增量提升。声学场景在线检测的增量模型框架大致如图 4-1 所示。
【参考文献】
相关期刊论文 前4条
1 郑贵滨;韩纪庆;李海峰;郑铁然;;基于分段的实时声频检索方法[J];声学学报;2006年02期
2 陈振标,徐波;基于子带能量特征的最优化语音端点检测算法研究[J];声学学报;2005年02期
3 韩纪庆;张磊;郑铁然;;网络环境下的语音识别方法[J];计算机科学;2005年01期
4 宋博,须德;音频信息检索的研究及实现[J];计算机应用;2003年12期
相关会议论文 前1条
1 姜洪臣;梁伟;张树武;徐波;;音频场景分类的音频特征提取和分析[A];第八届全国人机语音通讯学术会议论文集[C];2005年
相关硕士学位论文 前2条
1 张强;网络音频数据分类标注与前处理系统构建[D];哈尔滨工业大学;2012年
2 胡艳芳;广播音频的自动分段分类技术[D];清华大学;2009年
本文编号:2737646
本文链接:https://www.wllwen.com/kejilunwen/wltx/2737646.html