当前位置:主页 > 科技论文 > 信息工程论文 >

暴力音频场景分类技术研究与系统实现

发布时间:2017-09-28 11:20

  本文关键词:暴力音频场景分类技术研究与系统实现


  更多相关文章: 暴力音频场景识别 深度学习 受限玻尔兹曼机 特征学习


【摘要】:随着近年来互联网与电影业的发展,音视频等多媒体文件急剧增多,有些音视频文件往往包含大量的暴力元素。由于音频在处理速度上比视频快得多,基于音频的暴力场景识别受到越来越多的关注。目前暴力音频检测技术主要基于机器学习算法,相比于传统的人工审查方式取得了突破性的进展,但是仍然存在着以下问题:不同的识别场景通常需要选取不同的音频特征,系统推广能力弱;传统机器学习算法都是基于浅层学习,对于音频等复杂特征的建模能力较弱,系统识别性能有待提高;大部分暴力音频识别方法在带有噪声的真实场景下识别性能明显下降。本文针对上述问题,主要做了以下几个方面的研究:(1)针对不同场景下系统推广能力弱的问题,本文将深度神经网(Deep Neural network,DNN)应用到暴力音频识别任务中。相比传统的浅层学习算法,DNN作为深度学习模型,对特征的学习与表达能力更强,在大多数场景下,可以直接使用底层特征如对数功率谱、语谱图等作为DNN的输入,不需要人工筛选特征。(2)针对系统识别性能差的问题,一方面,在特定的应用场景下,使用深度学习模型构造的特征可以作为新特征与MFCC、能量熵、过零率等特征做融合;另一方面,本文还使用离散化与特征选择技术,进一步提升特征的表达能力,同时在暴力音频的识别阶段使用K-近邻(K-Nearest Neighbo,KNN)算法对识别结果进行平滑矫正,提升系统的识别性能。(3)针对在有噪声的环境下识别性能差的问题,本文使用深度降噪自编码(Deep Denoising Autoencoder,DDAE)网络对原始音频进行降噪处理,减小训练数据与真实测试数据之间的差异性,提高了音频特征的鲁棒性。(4)为提高DNN训练速度与模型表达能力,本文还在受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)基础上提出了基于自增长受限玻尔兹曼机(Incre-Restricted Boltzmann Machine,Incre-RBM)。实验表明,Incre-RBM相比于RBM,具有更快的训练速度与更强的表达能力。
【关键词】:暴力音频场景识别 深度学习 受限玻尔兹曼机 特征学习
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.3;TP181
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第1章 绪论9-15
  • 1.1 课题背景及研究的目的与意义9-10
  • 1.2 国内外研究现状10-12
  • 1.2.1 暴力音视频场景识别研究现状10-11
  • 1.2.2 深度学习技术在音频领域的研究进展11-12
  • 1.2.3 目前暴力音频场景识别方法存在的问题12
  • 1.3 本文研究内容12-14
  • 1.4 本文组织结构14-15
  • 第2章 基于声学特征与SVM暴力音频分类系统15-26
  • 2.1 引言15
  • 2.2 特征提取15-19
  • 2.2.1 声学特征15-18
  • 2.2.2 统计量18-19
  • 2.3 基于S VM的暴力音频场景分类系统19-23
  • 2.3.1 支持向量机19-22
  • 2.3.2 SVM进行暴力音频场景分类任务22-23
  • 2.4 实验与实验结果分析23-25
  • 2.4.1 实验平台与实验数据23-24
  • 2.4.2 评价指标与实验结果24-25
  • 2.5 本章小结25-26
  • 第3章 基于自增长受限玻尔兹曼机的音频特征学习26-40
  • 3.1 引言26
  • 3.2 受限玻尔兹曼机26-30
  • 3.3 自增长受限玻尔兹曼机30-33
  • 3.3.1 处理流程30-32
  • 3.3.2 时间分析与误差分析32-33
  • 3.3.3 Incre-RBM应用33
  • 3.4 基于自增长受限玻尔兹曼机的深度信念网络33-36
  • 3.4.1 预训练33-34
  • 3.4.2 微调34-36
  • 3.4.3 特征提取36
  • 3.5 实验结果与分析36-39
  • 3.5.1 实验数据与评价指标36-37
  • 3.5.2 网络结构与网络参数37-38
  • 3.5.3 实验结果与分析38-39
  • 3.6 本章小结39-40
  • 第4章 基于深度神经网络的暴力音频分类系统40-57
  • 4.1 引言40-41
  • 4.2 音频降噪与特征处理41-45
  • 4.2.1 音频降噪41-43
  • 4.2.2 特征处理43-45
  • 4.3 模型训练45-46
  • 4.4 KNN矫正与段内打分机制46-49
  • 4.4.1 段内打分机制46
  • 4.4.2 KNN矫正46-49
  • 4.4.3 KNN矫正-投票打分机制49
  • 4.5 实验结果与分析49-56
  • 4.5.1 音频降噪实验49-50
  • 4.5.2 特征离散化与特征选择实验50-52
  • 4.5.3 KNN矫正实验52-53
  • 4.5.4 暴力音频场景识别系统实现53-56
  • 4.6 本章小结56-57
  • 结论57-58
  • 参考文献58-63
  • 攻读硕士学位期间发表的论文及其他成果63-65
  • 致谢65

【相似文献】

中国期刊全文数据库 前10条

1 王若愚;方芳;叶昭;;流量分类技术精细管理网络[J];中国教育网络;2012年02期

2 马明成;莫晓俊;姜洪臣;徐波;;音频分类技术在广播质量评估中的应用[J];广播与电视技术;2010年10期

3 黄树成;曲亚辉;;数据流分类技术研究综述[J];计算机应用研究;2009年10期

4 张俊,石功军,王中平;信息处理过程中的分类技术[J];声学技术;2003年04期

5 张李,涂晓东,何诚;流分类技术的研究[J];电子科技大学学报;2004年06期

6 李洋;赵骅;;基于信息熵和决策分类技术的邮件识别研究[J];计算机科学;2008年02期

7 夏雪;肖德宝;顾婷;;基于本体的报警分类技术在报警评估过程中的应用与实现(英文)[J];北京交通大学学报;2008年06期

8 黄敏;何中市;;分类技术在高职教学质量评价分析中的应用[J];计算机工程与设计;2012年03期

9 王与;刘洋;;分类技术在高校教学管理中的应用[J];滁州学院学报;2011年05期

10 段巍巍;许海滨;;基于分类技术的目标客户辅助定位方法研究[J];江苏通信;2008年03期

中国重要会议论文全文数据库 前1条

1 梁晓雯;闵友钢;;音乐情感分类技术在媒体资产管理中的应用[A];中国新闻技术工作者联合会2008年学术年会论文集(下)[C];2008年

中国博士学位论文全文数据库 前1条

1 毕夏安;高性能包分类技术及其应用研究[D];湖南大学;2012年

中国硕士学位论文全文数据库 前10条

1 周方;社交网络节点分类技术研究[D];辽宁大学;2015年

2 李林林;面向不均衡数据的半监督网络流量分类技术研究与实现[D];解放军信息工程大学;2014年

3 董辉;基于混合方法的网络流量分类技术研究[D];哈尔滨理工大学;2014年

4 冯佳军;暴力音频场景分类技术研究与系统实现[D];哈尔滨工业大学;2016年

5 王小慧;基于单链接和期望最大化规则聚类的包分类技术[D];湖南师范大学;2016年

6 丛蓉;基于采样的网络流量分类技术研究[D];北京邮电大学;2012年

7 朱秋香;流分类技术研究及其原型系统的实现[D];东南大学;2004年

8 张海笑;数据挖掘分类技术在高校教学中的应用研究[D];广东工业大学;2005年

9 常慧;分类技术在税收管理中的应用[D];郑州大学;2003年

10 蒋杰;基于分类技术的电子支付平台作弊账户的识别模型研究[D];浙江工业大学;2012年



本文编号:935554

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/935554.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4b3a0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com