基于概念漂移的流数据异常检测平台研究
发布时间:2021-11-26 22:08
随着传感器技术、互联网技术的发展,以及IPV6的推行,物联网将会把互联网技术推进一个新的时代。在万物互联的世界中,用户将对数据的收集和共享提出更多需求,以至于数据量的极速增长。与传统的批处理数据相比,流数据作为一种新的数据形式,主要具有以下三个特征:一是对数据处理具有较强的实时性要求;二是数据分布可能随时间不断变化;三是数据规模极其庞大。如金融股票、网络流量监控、用户购物浏览信息、无线传感器网络等领域,数据均是以流的形式存在的。由于在实际场景中流数据的广泛应用,针对流数据可靠性的相关研究迅速得到人们的重视。而异常检测作为可靠性分析的重要组成部分,也成为了流式数据的研究热点之一。异常检测拥有广泛的应用场景,例如入侵检测、日志分析、复杂系统故障检测和智能家居报警等。流数据的异常检测与传统数据异常检测存在较大的区别,其中最主要的影响因素是流数据具有概念漂移的特性。概念漂移即数据分布会随着时间的推移不断变化。在传统的异常检测算法一般假设数据分布是稳定不变的,因此若将传统异常检测算法直接应用于流数据,则无法识别并处理概念漂移,从而使得检测性能不断恶化。本文将针对存在概念漂移的数据流,研究流数据的...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图3-8时间异常示意图
图 3-9 空间异常示意图异常检测部分后,进入算法的重训练阶段,该阶段的目。检测完成当前模块后,滑动窗口会移除其中时间最久本窗口,保证了模型与底层数据分布的同步改变,从而同时解决了概念漂移问题。重训练阶段的操作同训练阶述。以下为异常检测阶段的算法。-4: Anomaly Detection,matrix,clusterSetrSet.compute(bw)I to bw.size – 1ix[bw[i].clusterId] * matrix[bw[i+1].clusterId] * tbnormal
k-means k-means++图 3-12 聚类效果示意情况的原因是,由于k-means++强调各个聚类中心要点都被候选为聚类中心,由于剩下的点都与这两个点选中,使得这两个类变得十分稳定,所以出现了图 滑动窗口较小,数据存在极端离群点时,采取 k-m实验时,选取合适的滑动窗口和基本窗口大小,将素。念漂移问题的优化 算法中,检测点作为即将进入滑动窗口的最新点,如有对新概念的记录,容易发生误报的情况。如图 3-
【参考文献】:
期刊论文
[1]结构化数据清洗技术综述[J]. 郝爽,李国良,冯建华,王宁. 清华大学学报(自然科学版). 2018(12)
[2]储罐区重大危险源数据流异常检测技术框架研究[J]. 郭晓明,梅鹏. 科技与创新. 2018(15)
[3]智能电网大数据流式处理方法与状态监测异常检测[J]. 王德文,杨力平. 电力系统自动化. 2016(14)
[4]云环境下基于统计监测的分布式软件系统故障检测技术研究[J]. 王焘,张文博,徐继伟,魏峻,钟华. 计算机学报. 2017(02)
[5]领域无关数据清洗研究综述[J]. 曹建军,刁兴春,汪挺,王芳潇. 计算机科学. 2010(05)
[6]数据流挖掘分类技术综述[J]. 王涛,李舟军,颜跃进,陈火旺. 计算机研究与发展. 2007(11)
[7]数据清洗前的预处理方法[J]. 唐懿芳,钟达夫,张师超. 广西科学. 2005(02)
[8]流数据分析与管理综述[J]. 金澈清,钱卫宁,周傲英. 软件学报. 2004(08)
[9]缺失数据的插补调整[J]. 金勇进. 数理统计与管理. 2001(06)
博士论文
[1]基于概念漂移的数据流集成分类算法研究[D]. 任思琪.湖南大学 2018
硕士论文
[1]数据清洗在多雷达数据融合算法中的研究与应用[D]. 郑雅诗.北京邮电大学 2018
[2]基于概念漂移的异常检测技术研究[D]. 何欢.电子科技大学 2015
[3]滑动窗口模型下的数据流自适应异常检测方法研究[D]. 庞景月.哈尔滨工业大学 2013
[4]缺失数据处理方法的研究及其在软测量技术中的应用[D]. 侯贺.东北大学 2011
本文编号:3521006
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图3-8时间异常示意图
图 3-9 空间异常示意图异常检测部分后,进入算法的重训练阶段,该阶段的目。检测完成当前模块后,滑动窗口会移除其中时间最久本窗口,保证了模型与底层数据分布的同步改变,从而同时解决了概念漂移问题。重训练阶段的操作同训练阶述。以下为异常检测阶段的算法。-4: Anomaly Detection,matrix,clusterSetrSet.compute(bw)I to bw.size – 1ix[bw[i].clusterId] * matrix[bw[i+1].clusterId] * tbnormal
k-means k-means++图 3-12 聚类效果示意情况的原因是,由于k-means++强调各个聚类中心要点都被候选为聚类中心,由于剩下的点都与这两个点选中,使得这两个类变得十分稳定,所以出现了图 滑动窗口较小,数据存在极端离群点时,采取 k-m实验时,选取合适的滑动窗口和基本窗口大小,将素。念漂移问题的优化 算法中,检测点作为即将进入滑动窗口的最新点,如有对新概念的记录,容易发生误报的情况。如图 3-
【参考文献】:
期刊论文
[1]结构化数据清洗技术综述[J]. 郝爽,李国良,冯建华,王宁. 清华大学学报(自然科学版). 2018(12)
[2]储罐区重大危险源数据流异常检测技术框架研究[J]. 郭晓明,梅鹏. 科技与创新. 2018(15)
[3]智能电网大数据流式处理方法与状态监测异常检测[J]. 王德文,杨力平. 电力系统自动化. 2016(14)
[4]云环境下基于统计监测的分布式软件系统故障检测技术研究[J]. 王焘,张文博,徐继伟,魏峻,钟华. 计算机学报. 2017(02)
[5]领域无关数据清洗研究综述[J]. 曹建军,刁兴春,汪挺,王芳潇. 计算机科学. 2010(05)
[6]数据流挖掘分类技术综述[J]. 王涛,李舟军,颜跃进,陈火旺. 计算机研究与发展. 2007(11)
[7]数据清洗前的预处理方法[J]. 唐懿芳,钟达夫,张师超. 广西科学. 2005(02)
[8]流数据分析与管理综述[J]. 金澈清,钱卫宁,周傲英. 软件学报. 2004(08)
[9]缺失数据的插补调整[J]. 金勇进. 数理统计与管理. 2001(06)
博士论文
[1]基于概念漂移的数据流集成分类算法研究[D]. 任思琪.湖南大学 2018
硕士论文
[1]数据清洗在多雷达数据融合算法中的研究与应用[D]. 郑雅诗.北京邮电大学 2018
[2]基于概念漂移的异常检测技术研究[D]. 何欢.电子科技大学 2015
[3]滑动窗口模型下的数据流自适应异常检测方法研究[D]. 庞景月.哈尔滨工业大学 2013
[4]缺失数据处理方法的研究及其在软测量技术中的应用[D]. 侯贺.东北大学 2011
本文编号:3521006
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3521006.html