流数据在线异常检测方法研究

发布时间:2017-03-21 04:10

  本文关键词:流数据在线异常检测方法研究,由笔耕文化传播整理发布。


【摘要】:随着现代信息技术的飞速发展,数据每天或每小时以百万级的速度产生且呈现出爆炸式增长,大数据时代的到来给数据的实时在线处理及应用带来了前所未有的挑战。在这些持续产生的海量数据中,大部分是正常的信息价值不大,然而存在着小部分数据,却蕴含着更值得关注的信息和更大的价值。从海量数据中挖掘小部分不同数据的活动,称为异常检测,类似于从金矿中发现金子的过程,具有很大的研究意义和应用价值。然而,在大数据时代,流数据的海量、持续产生及动态特性使得传统的方法不能很好地适应实时环境下的异常检测。本文分析流数据的特点和处理流数据面临的挑战,研究并提出流数据的在线异常检测方法;并结合具体的流数据产生的应用场景,如无线传感器网络(Wireless Sensor Networks,WSNs),考虑网络拓扑结构特征和资源约束,提出适应于特定应用场景的流数据异常检测算法。本文的主要工作概括如下:首先,考虑流数据的在线处理需求,在分析现有方法的基础上,从异常数据的“少且不同”的本质特征出发,研究了基于隔离的异常检测算法。针对流数据的动态变化特性,引入在线集成学习理论,提出基于在线集成学习和隔离机制的流数据异常检测算法。该算法基于历史数据学习初始检测模型,在异常检测中能实时地在线更新模型,从而适应流数据的分布动态变化。在真实数据集的仿真实验结果表明,该算法在流数据异常检测方面具有较好的效果。在上述提出算法的基础上,进一步分析了算法中异常检测器的产生机制,发现采用随机机制构造检测器存在集成个体较多的缺点,引入统计直方图机制和滑动窗口机制,提出了基于统计直方图的在线自适应异常检测算法。同时研究了三个关键参数(窗口尺度、集成规模及统计直方图条目数)对算法性能的影响。仿真实验结果表明,该算法能适应在线的环境,和现有的基于流数据的在线异常检测算法相比具有一定的优势。其次,进一步探索属性值空间隔离机制,针对基于超格异常检测方法中存在的搜索邻域空间大而造成算法运行时间长的问题,对原始定义的超格结构一阶搜索邻域进行了优化并重新定义了一阶搜索邻域,给出了基于改进超格邻域的异常检测启发式规则。进一步考虑到在构建超格时,获取最优超格结构相对困难且流数据的动态变化特性,由于在线集成学习能很好地应对动态环境且能显著提高学习的泛化能力,提出了基于超格的在线集成异常检测算法,通过构建不同的超格结构的个体检测器来获得集成检测器。在模拟数据集和真实数据集上的仿真实验结果验证了该方法的有效性。再次,考虑到流数据的产生和应用的具体环境,针对无线传感网络中的流数据处理和应用问题,研究了无线传感网络环境中流数据的异常检测方法。在分析无线传感网络拓扑结构及其自组织特征基础上,探索了网络节点感知数据的时空关联特性,提出了一种分布式集成异常检测算法。算法的分布式特性使得网络节点资源耗费均匀,避免了数据通信过程中的资源瓶颈问题,延长了网络生命周期。进一步,考虑到在无线传感器网络中,相对于感知数据的计算和存储,数据的无线传输耗费的能量相当巨大,因此如何尽可能减少数据的传输量对网络的应用至关重要。在上述研究的基础上,考虑到集成学习虽然能带来较好的泛化性能,但在具体无线传感网络应用中,节点之间传递多个检测器将会造成通信量增加,引入集成剪枝理论和生物地理学优化算法,对初始集成进行剪枝处理,提出了资源约束环境下无线传感网络中流数据的异常检测算法。仿真实验结果表明,剪枝后的算法减少了通信代价,能适应于实际的应用需求。最后,基于上述研究的成果,在智慧车联网中,为了及时发现城市出租车绕行的不文明现象,对实时获得的出租车车载GPS数据进行了在线分析,基于超格理论提出了映射轨迹概念并设计基于超格的异常路径检测算法对行车轨迹进行实时判断,识别出租车绕行,及时发现不文明的出租车宰客现象。在真实的出租车行车轨迹数据集上的实验表明,提出的算法有一定的实用性,能实时发现出租车绕行或宰客现象,为城市文明监督和执法提供辅助决策依据。
【关键词】:流数据 异常检测 在线集成学习 隔离规则 超格空间 资源约束 集成剪枝 无线传感网络 出租车绕行
【学位授予单位】:上海大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
  • 摘要6-8
  • ABSTRACT8-15
  • 第一章 绪论15-27
  • 1.1 引言15-16
  • 1.2 流数据异常检测及面临的挑战16-18
  • 1.3 异常检测的国内外研究进展与现状18-23
  • 1.3.1 异常检测方法研究进展与现状18-19
  • 1.3.2 流数据异常检测方法进展19-21
  • 1.3.3 WSNs中异常检测方法研究21-23
  • 1.4 本文的主要工作和创新23-25
  • 1.5 论文的架构及章节安排25-27
  • 第二章 基于隔离机制和在线集成学习的流数据异常检测方法27-45
  • 2.1 引言27
  • 2.2 预备知识27-31
  • 2.2.1 基于隔离的异常检测27-29
  • 2.2.2 集成学习理论29-31
  • 2.3 基于隔离和在线集成学习的算法描述31-38
  • 2.3.1 实例-基于隔离的异常检测31-32
  • 2.3.2 算法框架32-33
  • 2.3.3 算法描述及异常判断33-35
  • 2.3.4 算法理论分析35-36
  • 2.3.5 算法复杂度分析36-38
  • 2.4 仿真实验和算法性能分析38-44
  • 2.4.1 数据集38-39
  • 2.4.2 算法参数设置和性能评估指标39-42
  • 2.4.3 仿真实验和算法性能分析42-44
  • 2.5 本章小结44-45
  • 第三章 基于统计直方图的自适应流数据异常检测方法45-68
  • 3.1 引言45
  • 3.2 预备知识45-49
  • 3.2.1 滑动窗口(Sliding Window, SW)模型45-47
  • 3.2.2 统计直方图及条目数选择47-49
  • 3.3 基于统计直方图的在线流数据异常检测算法49-57
  • 3.3.1 流数据滑动窗口机制及异常检测50-51
  • 3.3.2 在线自适应异常检测框架51-53
  • 3.3.3 基于隔离值选择的隔离树构造53-54
  • 3.3.4 AHIForest异常检测算法54-57
  • 3.3.5 算法复杂度分析57
  • 3.4 仿真实验和算法性能评估57-67
  • 3.4.1. 数据集处理58-59
  • 3.4.2 算法参数设置和性能评估指标59
  • 3.4.3 算法仿真实验验证和性能分析59-67
  • 3.5 本章小结67-68
  • 第四章 基于集成超格的流数据异常检测方法68-88
  • 4.1 引言68
  • 4.2 超格空间结构及建模68-71
  • 4.2.1 格的相关知识68-70
  • 4.2.2 超格结构建模70-71
  • 4.3 基于超格集成的流数据异常检测算法研究71-78
  • 4.3.1 超格模型及其改进71-73
  • 4.3.2 基于超格的在线异常检测算法73-75
  • 4.3.3 参数估计方法75-77
  • 4.3.4 基于集成的超格异常检测算法77
  • 4.3.5 算法复杂度分析77-78
  • 4.4 仿真实验和算法性能评估78-86
  • 4.4.1 数据集78-79
  • 4.4.2 性能评估指标79-80
  • 4.4.3 结果分析80-86
  • 4.5 本章小结86-88
  • 第五章 考虑无线传感网节点数据时空关联特性的分布式流数据异常检测方法88-105
  • 5.1 引言88
  • 5.2 WSNs分布式异常检测方法88-96
  • 5.2.1 问题描述88-90
  • 5.2.2 WSNs节点传感流数据时空关联分析90-91
  • 5.2.3 考虑时空关联的分布式WSNs流数据异常检测算法91-93
  • 5.2.4 基于网络结构的分布式隔离异常检测方法93-96
  • 5.2.5 算法复杂度分析96
  • 5.3 仿真实验及算法性能分析96-104
  • 5.3.1 数据集97-99
  • 5.3.2 数据预处理及性能评价指标99
  • 5.3.3 仿真实验结果和算法评价99-104
  • 5.4 本章小结104-105
  • 第六章 基于集成剪枝优化的无线传感网分布式流数据异常检测方法105-122
  • 6.1 引言105
  • 6.2 预备知识105-108
  • 6.2.1 无线传感网络模型105-106
  • 6.2.2 BBO算法及集成剪枝106-108
  • 6.3 基于BBO优化的分布式流数据异常检测算法108-115
  • 6.3.1 基于BBO集成剪枝算法框架108-109
  • 6.3.2 基于BBO优化方法的集成剪枝109-111
  • 6.3.3 节省通信资源的矩阵编码方法111-113
  • 6.3.4 集成剪枝的理论分析113-115
  • 6.4 仿真实验和算法性能分析115-121
  • 6.4.1 数据集和数据预处理115-118
  • 6.4.2 算法性能评估和BBO参数118
  • 6.4.3 算法性能分析118-121
  • 6.5 本章小结121-122
  • 第七章 流数据异常检测方法在智慧车联网中的应用122-133
  • 7.1 引言122-123
  • 7.2 出租车行车轨迹异常检测123-126
  • 7.2.1 问题描述及意义123-124
  • 7.2.2 出租车运行路线异常检测124-126
  • 7.3 基于超格的轨迹异常算法研究126-131
  • 7.3.1 算法设计126-130
  • 7.3.2 结果分析及讨论130-131
  • 7.4 本章小结131-133
  • 第八章 总结与展望133-136
  • 8.1 全文总结133-134
  • 8.2 进一步工作展望134-136
  • 参考文献136-147
  • 攻读博士学位期间公开发表的学术论文147-149
  • 攻读博士学位期间参加的科研项目及学术工作149-150
  • 项目研究149
  • 学术工作149-150
  • 致谢150-151

【参考文献】

中国期刊全文数据库 前10条

1 Zhi-Guo Ding;Da-Jun Du;Min-Rui Fei;;An Isolation Principle Based Distributed Anomaly Detection Method in Wireless Sensor Networks[J];International Journal of Automation and Computing;2015年04期

2 贺静波;万磊;霍超;常青;;高压直流输电非典型工况下过电压异常风险分析[J];电网技术;2014年12期

3 余南华;李兰芳;王玲;杨洪耕;谭丹;;基于云模型的谐波电流异常检测[J];中国电机工程学报;2014年25期

4 李文锋;王隆进;姚道金;喻恒;;基于运动特征分析的人体异常行为模糊识别[J];华中科技大学学报(自然科学版);2014年07期

5 王磊;谢树果;苏东林;王国玉;;基于时间序列分析的频谱异常自主检测和稳健估计方法[J];电子学报;2014年06期

6 丁智国;费敏锐;马海平;;一种基于生物地理学优化算法的集成选择方法[J];系统仿真学报;2014年05期

7 李辉;杨超;李学伟;季海婷;秦星;陈耀君;杨东;唐显虎;;风机电动变桨系统状态特征参量挖掘及异常识别[J];中国电机工程学报;2014年12期

8 苏卫星;朱云龙;刘芳;胡琨元;;时间序列异常点及突变点的检测算法[J];计算机研究与发展;2014年04期

9 张德干;赵晨鹏;李光;明学超;郑可;;一种基于前向感知因子的WSN能量均衡路由方法[J];电子学报;2014年01期

10 陆悠;李伟;罗军舟;蒋健;夏怒;;一种基于选择性协同学习的网络用户异常行为检测方法[J];计算机学报;2014年01期


  本文关键词:流数据在线异常检测方法研究,由笔耕文化传播整理发布。



本文编号:259017

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/259017.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c9b4a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com