基于GPR预判模型的海量日志流实时异常检测研究
本文关键词:基于GPR预判模型的海量日志流实时异常检测研究
更多相关文章: 日志流 异常检测 高斯过程回归 JStorm
【摘要】:随着计算机技术的快速发展和信息化的不断深入,大型互联网企业产生的日志量也呈现出爆炸式增长。通过分析和检测日志,及时发现用户行为和系统状态的异常,对于提高用户满意度和系统稳定性具有重要作用。传统的日志异常检测采用先存储后处理的方式,但是随着海量日志时代的到来,这一方式面临存储空间占用过高以及实时性差的瓶颈,所以迫切需要研究新的日志异常检测架构和算法。因此针对海量日志实时异常检测的课题,本文分别从检测算法和实时计算两方面进行研究:(1)对日志流进行异常检测,一般采用基于规则匹配的方式,但是效率较低,因此本文研究了文本日志的数值化表示方法,提出了利用信息含量来表征日志。由于直接计算信息含量复杂度较高,所以用无损压缩与信息含量之间的关系间接的估计信息含量。为了满足日志流压缩的特殊需求,本文在序列压缩算法的基础上提出了一种适合于日志流场景的无损压缩算法LSCA。文本日志转换成数值形式后,通过引入高斯过程回归模型,提出了基于GPR预判模型的日志流异常检测算法,将实际收到的数据值与预估的数据值比较,看其是否在偏差范围之内来判定日志是否异常。(2)基于GPR的预判模型可以有效的检测孤立异常,但是对局部异常检测效率不高。为了解决这个问题,本文引入采样的方法,提出了适合日志流场景的采样算法LSUS,将其与GPR结合形成了新的模型LSUS_GPR,然后把新模型推广到全局异常检测。实验表明新模型的计算复杂度和误判率都明显降低,提高了检测效率。(3)借助于JStorm流式计算框架,本文设计并实现了基于GPR预判模型的日志流实时异常检测系统LRADS。针对LRADS系统,分别从总体设计和性能优化两个方面进行讲述。总体设计方面,主要介绍了核心部分日志采集和实时检测模块。性能优化方面,提出了离线和在线调度优化方法。最后系统测评表明LRADS稳定高效,具备生产环境使用价值。
【关键词】:日志流 异常检测 高斯过程回归 JStorm
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.08
【目录】:
- 摘要5-6
- ABSTRACT6-11
- 第一章 绪论11-17
- 1.1 研究背景和意义11-12
- 1.2 国内外研究现状12-14
- 1.2.1 流式实时计算研究现状12-13
- 1.2.2 异常检测研究现状13-14
- 1.3 本文主要研究工作14-15
- 1.4 论文组织结构15-17
- 第二章 相关理论与技术研究17-29
- 2.1 异常检测17-21
- 2.1.1 基本概念17-18
- 2.1.2 基于统计理论的异常检测18
- 2.1.3 基于最近邻的异常检测18-20
- 2.1.4 基于聚类的异常检测20-21
- 2.2 流式数据处理21-23
- 2.2.1 流式数据特征21
- 2.2.2 流式数据处理模型21-23
- 2.3 数据流异常检测23-25
- 2.3.1 数据流异常分类23
- 2.3.2 数据流概要生成算法23-24
- 2.3.3 数据流异常检测算法24-25
- 2.4 JStorm流式计算框架25-29
- 2.4.1 JStorm部署架构25-26
- 2.4.2 JStorm并发模型26-27
- 2.4.3 JStorm消息分发27-29
- 第三章 基于GPR预判模型的日志流异常检测29-45
- 3.1 基于预判的日志流异常检测流程29-30
- 3.2 日志事件抽取30-33
- 3.2.1 过程式语言31
- 3.2.2 面向对象语言31-33
- 3.3 文本日志的数值化表示33-36
- 3.3.1 信息含量估计33-34
- 3.3.2 LSCA压缩34-36
- 3.4 基于GPR预判模型的日志流异常检测36-40
- 3.4.1 高斯过程回归36-38
- 3.4.2 GPR预判模型38-39
- 3.4.3 基于GPR预判模型的日志流异常检测39-40
- 3.5 实验结果与分析40-44
- 3.5.1 实验环境与数据集介绍40-42
- 3.5.2 评价指标42-43
- 3.5.3 孤立异常检测43-44
- 3.5.4 局部异常检测44
- 3.6 本章小结44-45
- 第四章 结合LSUS采样优化的GPR预判模型45-55
- 4.1 引言45
- 4.2 采样算法45-48
- 4.2.1 LSUS采样算法46-48
- 4.2.2 LSUS功能验证48
- 4.3 改进的GPR预判模型48-51
- 4.3.1 针对局部异常的改进48-49
- 4.3.2 针对全局异常的改进49-51
- 4.4 实验结果与分析51-54
- 4.4.1 孤立和局部异常实验51-52
- 4.4.2 全局异常实验52-54
- 4.5 本章小结54-55
- 第五章 海量日志流实时异常检测系统设计与实现55-65
- 5.1 LRADS总体设计55-59
- 5.1.1 日志采集子系统55-57
- 5.1.2 实时检测模块57-58
- 5.1.3 监控报警模块58-59
- 5.2 LRADS性能优化59-62
- 5.2.1 离线调度优化60-61
- 5.2.2 在线调度优化61-62
- 5.3 实验结果与分析62-64
- 5.4 本章小结64-65
- 第六章 总结与展望65-67
- 6.1 总结65
- 6.2 展望65-67
- 致谢67-68
- 参考文献68-72
- 附录 作者在读期间发表的学术论文及参加的科研项目72-73
- 详细摘要73-75
【相似文献】
中国期刊全文数据库 前10条
1 邓奇强;;高校图书馆流通日志数据整理探讨[J];河北科技图苑;2013年04期
2 黄玮尧;;交通银行集中日志审计管理最佳实践[J];中国金融电脑;2011年10期
3 邹晓峰;李鸣亚;;浅析一个分布式日志服务器的应用[J];考试周刊;2007年49期
4 宋爱波,庄晓青,何洁月,业宁,董逸生;图书馆大规模日志数据的快速聚类[J];应用科学学报;2003年03期
5 叶小莺;;基于回调机制的异步日志服务的开发[J];电子世界;2012年04期
6 刘兴淮;温丛剑;徐燕梅;;临床数据统计日志的科学获取与应用[J];中国医疗设备;2011年12期
7 朱智林,左天军,牛淑龄;基于日志的脏数据检测与恢复[J];电子科技;2004年05期
8 李清;沈彤;关毅;;面向大规模日志数据的聚类算法研究[J];智能计算机与应用;2012年05期
9 吕荣峰;;基于syslog-ng的集中式日志服务器及其客户端配置方法[J];数字技术与应用;2014年04期
10 刘合富;;SYSLOG日志数据采集实现[J];中国教育网络;2007年08期
中国重要会议论文全文数据库 前4条
1 王广立;张立群;;一种基于日志的流程挖掘算法的设计与实现[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
2 黄东;;工厂信息化日志的存储及管理[A];中国计量协会冶金分会2011年会论文集[C];2011年
3 刘锟;邢延;蔡延光;;一种针对交互式学习系统日志数据的轻型化挖掘方法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
4 郭新涛;梁敏;阮备军;朱扬勇;;挖掘Web日志降低信息搜寻的时间费用[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国重要报纸全文数据库 前5条
1 ;日志数据激增困扰数据中心[N];网络世界;2009年
2 ;Google与隐私权[N];网络世界;2009年
3 沈建;谨防安全策略的五大基本错误[N];计算机世界;2008年
4 本报记者 胡英;RSA enVision 4.0让企业更合规[N];计算机世界;2009年
5 ;注重安全管理[N];网络世界;2004年
中国硕士学位论文全文数据库 前10条
1 曾明宇;一种基于Storm和Mongodb的分布式实时日志数据存储与处理系统的设计与实现及应用[D];浙江大学;2015年
2 徐沛原;基于移动终端日志数据的人群特征可视化研究[D];浙江大学;2015年
3 陈超;基于分布式计算的海量日志数据分析平台的设计与实现[D];北京邮电大学;2015年
4 刘森源;流程挖掘预处理研究与应用[D];华南理工大学;2016年
5 姚俊杰;WEB日志数据挖掘在MOODLE中的研究与应用[D];上海交通大学;2015年
6 陶兴宇;分布式系统日志数据采集关键技术研究与实现[D];沈阳航空航天大学;2016年
7 郭子昂;基于GPR预判模型的海量日志流实时异常检测研究[D];杭州电子科技大学;2016年
8 苏政;基于日志数据的域名访问源多尺度分析[D];南京师范大学;2013年
9 杨尚大;日志数据采集和实时审计关键技术研究与实现[D];浙江工商大学;2009年
10 王兆永;面向大规模批量日志数据存储方法的研究[D];电子科技大学;2011年
,本文编号:565638
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/565638.html