一种融合音频和视频的室内智能监控系统
本文关键词:一种融合音频和视频的室内智能监控系统
更多相关文章: 室内智能监控 麦克风阵列 时延估计 声源定位 异常检测
【摘要】:近年来,随着经济的迅猛发展,计算机技术和信号处理技术在研究和应用上有了质的飞跃,室内智能监控越来越受到人们的关注。智能监控系统摆脱了传统视频监控单一性功能的缺点,能够对监控场景进行实时的目标检测和跟踪,且大大节省了人力、物力和财力,因而在工业、交通、银行、安全等方面得到了广泛应用。然而,单一摄像头的监控能力和范围有限,增加摄像头的个数无疑大大增加了投入成本。因此本文提出了一种融合音频和视频的室内智能监控系统,在调研国内外相关论文的基础之上,在音频和视频两方面针对发生的异常情况进行检测,具体开展了以下的研究和开发工作:(1)在对异常声音特性和室内背景噪声模型分析的基础上,提出了对阵列采集信号的预处理方法,包括声音端点检测(Sound Endpoint Detection,SED)和背景噪声去除技术。实验表明,在信噪比低的环境下,SED无法达到理想的检测效果,但对去除噪声后的信号进行端点检测,其准确性会有较大幅度的提高。后续的实验证明,良好的预处理方法不仅有利于减少运算量,更有助于提高定位精度。(2)在基于麦克风阵列信号产生模型的基础上,归纳总结了一些常用的时延估计技术,并针对几种实时性较好的方法进行了深入研究。实验采用均方根误差(Root Mean Square,RMSE)εRMSE和异常比率(Abnormal Rate,AR)ηAR来描述估计值偏离真实值的离散度和异常度,实验结果表明:在不同的噪声和混响环境下,广义互相关(Generalized Cross Correlation, GCC)时延估计法定位精度较高且实时性好。当环境信噪比为5dB,混响时间为l00ms时,进行SED后的基于人耳听觉感知特性(Human Auditory Perception Properties, HAPP)时延估计法效果最为理想,其εRMSE和ηAR分别为0.5054和0.0385,达到了较为理想的时延估计精度。(3)根据声源与麦克风阵列的空间位置关系,介绍了几种常用近场定位技术的原理和推导过程。在时延估计的基础上,对大量不同方位和距离声源进行定位实验,结果表明:角度和距离定位的εRMSE和ηAR分别小于0.1和0.3,估计误差较小,算法从整体上满足室内环境定位的基本要求。(4)本文提出了一种音频与视频相融合的异常检测方法,该方法在一定程度上克服了单一视频监控的盲区,将声音信号与视频图像结合起来,对室内安全情况进行综合判断。在音频检测方面,详细阐述了高斯混合模型(Gaussian Mixture Model)的基本原理、参数估计和识别方法,并研究了不同的高斯混合阶数和特征参数对识别率和时间复杂度的影响。大量的实验结果表明,当高斯混合阶数为32时,基于MFCC_E和GMM的异常声音检测的平均识别率能达到85%以上,时间复杂度较低。在视频检测方面,对基于单高斯背景建模的运动目标检测原理进行了说明,且在室内环境下证明了该算法的有效性。(5)结合前几章所研究的算法,提出了一种融合音频和视频的室内智能监控系统,并在PC平台下利用Visual C++6.0进行开发。系统首先对麦克风阵列采集的信号进行预处理,定位出声源位置后实现球机的实时转向,最后采用异常检测技术对监控场景情况进行检测,从而判断是否报警。在真实的室内环境下对软件进行测试,结果表明该系统对异常情况的定位和检测均达到了较为理想的效果。
【关键词】:室内智能监控 麦克风阵列 时延估计 声源定位 异常检测
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP277
【目录】:
- 摘要3-5
- Abstract5-11
- 第一章 绪论11-21
- 1.1 本文研究背景及意义11-12
- 1.2 基于麦克风阵列的声源定位技术12-15
- 1.2.1 基于麦克风阵列的声源定位技术概述12-13
- 1.2.2 基于麦克风阵列声源定位的国内外研究现状13-15
- 1.3 声音检测技术15-17
- 1.3.1 语音识别概述15-16
- 1.3.2 非语音信号检测概述16-17
- 1.4 智能监控技术17-19
- 1.4.1 智能监控技术概述17
- 1.4.2 智能监控技术国内外发展现状17-19
- 1.5 论文的研究内容和组织架构19-21
- 第二章 异常声音的特性分析与预处理21-30
- 2.1 异常声音的特性分析21-23
- 2.2 室内异常声音的端点检测23-26
- 2.3 室内背景噪声的去噪方法26-29
- 2.3.1 室内背景噪声模型26-27
- 2.3.2 最小平均lp范数算法27
- 2.3.3 仿真实验27-29
- 2.4 本章小节29-30
- 第三章 时延估计与声源定位30-51
- 3.1 麦克风信号产生模型30-31
- 3.2 时延估计算法31-40
- 3.2.1 传统互相关时延估计法31-32
- 3.2.2 广义互相关时延估计法32-34
- 3.2.3 互功率谱相位时延估计法34-35
- 3.2.4 基于LMS的自适应时延估计法35-36
- 3.2.5 基于特征值分解的时延估计法36-38
- 3.2.6 基于人耳听觉感知特性的时延估计38-40
- 3.3 声源定位方法40-44
- 3.3.1 问题描述41-42
- 3.3.2 极大似然估计法42-43
- 3.3.3 球形插值法43-44
- 3.4 仿真实验44-50
- 3.4.1 仿真环境45
- 3.4.2 预处理45
- 3.4.3 评估方法45-46
- 3.4.4 实验结果与分析46-50
- 3.5 本章小节50-51
- 第四章 融合音频和视频的异常检测51-70
- 4.1 异常声音的特征提取51-57
- 4.1.1 短时能量参数提取51-52
- 4.1.2 MFCC参数提取52-54
- 4.1.3 MFCC差分参数提取54-55
- 4.1.4 仿真实验55-57
- 4.2 异常声音的参数估计与识别57-66
- 4.2.1 GMM模型的基本原理58-59
- 4.2.2 GMM模型的参数估计59-61
- 4.2.3 GMM模型的识别算法61-62
- 4.2.4 仿真实验62-66
- 4.3 运动目标检测66-69
- 4.3.1 单高斯背景建模算法的基本原理67-68
- 4.3.2 仿真实验68-69
- 4.4 本章小结69-70
- 第五章 一种融合音频与视频的室内智能监控系统70-81
- 5.1 系统概述70-71
- 5.2 系统总体方案设计71-73
- 5.2.1 系统功能设计71-72
- 5.2.2 系统流程设计72-73
- 5.3 智能监测模块73-76
- 5.3.1 模块软件功能设计73-74
- 5.3.2 模块软件流程设计74-76
- 5.4 系统界面和运行结果76-80
- 5.5 本章小结80-81
- 第六章 工作总结和未来展望81-83
- 6.1 工作总结81-82
- 6.2 工作展望82-83
- 参考文献83-88
- 致谢88-89
- 攻读硕士学位期间发表的论文89-90
- 研究生期间科研情况90
【参考文献】
中国期刊全文数据库 前6条
1 路静;傅洪亮;;储粮害虫检测和分类识别技术的研究[J];粮食储藏;2014年01期
2 ;中国安防行业“十二五”(2011~2015年)发展规划[J];中国安防;2011年03期
3 郑世宝;;智能视频监控技术与应用[J];电视技术;2009年01期
4 曹剑芬;李爱军;胡方;张利刚;;语音学知识在语音识别中的应用:案例分析[J];清华大学学报(自然科学版);2008年S1期
5 卢秋波;;视频监控技术简介与发展趋势[J];电信网技术;2007年01期
6 李承智,曲天书,吴玺宏;一种改进的AEDA声源定位及跟踪算法[J];北京大学学报(自然科学版);2005年05期
中国博士学位论文全文数据库 前1条
1 李彤;智能视频监控下的多目标跟踪技术研究[D];中国科学技术大学;2013年
中国硕士学位论文全文数据库 前7条
1 裴鑫;声纹识别系统关键技术研究[D];哈尔滨理工大学;2014年
2 张璐璐;视频监控终端系统声音检测及告警功能软件设计[D];浙江大学;2013年
3 刘鹏;基于声谱图的公共场所异常声音特征提取及识别研究[D];重庆大学;2012年
4 刘建新;汉语耳语音转换为正常语音的共振峰结构研究[D];苏州大学;2007年
5 张敬春;基于盲源分离和小波分析的电机声频故障诊断研究[D];广东工业大学;2006年
6 徐胜;基于智能麦克风阵列的说话人跟踪技术[D];电子科技大学;2004年
7 陆晓燕;基于麦克风阵列实现声源定位[D];大连理工大学;2003年
,本文编号:752503
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/752503.html