基于异常检测技术的数据防爬系统设计与应用
本文关键词:基于异常检测技术的数据防爬系统设计与应用
【摘要】:近几年来,大数据技术在世界范围内发展迅猛,多个国家将大数据提升到国家战略的高度,“大数据是二十一世纪的石油”。让数据发挥价值的最有效手段是开放和共享,让数据利用起来、流动起来,从而发挥它的最大价值。随着互联网应用的日益普及,开放和共享面临很多安全问题,数据被恶意爬取是面临的最重要安全问题之一。互联网上存在很多爬虫程序,可被任意下载,恶意人员利用这些爬虫,通过Web页面或数据接口,从一个入口开始遍历,逐一访问并获取每个页面的数据,从而收集大量数据。大量数据的外泄,对提供数据开放的互联网公司造成严重数据安全问题。数据开放的初衷是让正常用户使用、分享,产生新的数据,基于新产生的数据挖掘分析产生更大的价值。由于网络爬虫带来的恶意访问,给信息服务提供者带来大量成本消耗,包括服务器和网络,同时大量数据外泄,脱离互联网公司有效控制,被不合理甚至非法的利用,产生更多安全问题,也偏离数据开放、分享的目的。本文针对互联网公司信息服务系统的特点,设计部署数据采集点,配置防御规则及检测算法。基于大数据分析系统,采用Flume实现数据采集,Kafka实现数据整合,部署Agent进行快速高效的数据收集;采用Storm构建实时分析检测系统,完成不同维度访问频率的统计,并基于统计数据构成的序列数据进行异常访问行为检测。利用异常检测技术,识别数据被爬取的网站,并且根据访问频率来判断爬虫来源,从而发现并识别爬虫访问;搭建爬虫拦截系统,切入业务系统的处理流程,接收实时分析系统生成的爬虫IP信息,检测并拦截每次访问请求,对于来自爬虫的访问,实施处罚处理。通过基于大数据的实时计算技术,实现了网站运行情况的数据采集及统计,实时产出数据报表,精确感知网站运行状况;利用运行数据来优化网站,提高系统可用性,并可以预测网站的访问量的正常增长,以便及时扩充服务器和带宽,对于异常的访问量暴增,能够通过异常检测算法快速识别,并阻断来自恶意IP的所有访问,降低资源消耗,同时避免数据泄露的风险,保证网站的平稳运行。
【关键词】:大数据分析 数据防爬 异常检测
【学位授予单位】:中国科学院大学(工程管理与信息技术学院)
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092
【目录】:
- 摘要5-6
- Abstract6-10
- 第一章 绪论10-18
- 1.1 研究背景与意义10-11
- 1.2 研究现状及进展11-15
- 1.2.1 互联网数据开放11-12
- 1.2.2 大数据处理技术12
- 1.2.3 网页爬虫技术研究12-14
- 1.2.4 异常检测技术14-15
- 1.2.5 防爬方面的技术15
- 1.3 本文主要研究内容15-16
- 1.4 本文组织结构16-18
- 第二章 关键技术分析18-34
- 2.1 异常检测技术18-24
- 2.1.1 时间序列数据19
- 2.1.2 Breakout检测算法19-22
- 2.1.3 3-Sigmal相关算法22-24
- 2.2 大数据处理技术24-30
- 2.2.1 数据采集技术24-28
- 2.2.2 实时计算技术28-30
- 2.3 分布式缓存30-32
- 2.4 小结32-34
- 第三章 防爬系统的设计与实现34-58
- 3.1 数据特征及分析需求34-36
- 3.1.1 信息服务网站数据统计需求35
- 3.1.2 信息服务网站的防爬需求35-36
- 3.2 总体设计36-37
- 3.3 数据采集层设计与实现37-42
- 3.3.1 采集数据的类型与格式37-38
- 3.3.2 数据采集模式设计与实现38-42
- 3.4 实时分析设计与实现42-50
- 3.4.1 实时分析总体结构42-45
- 3.4.2 异常检测算法设计与实现45-46
- 3.4.3 Breakout算法设计与实现46-47
- 3.4.4 降低误报设计与实现47-50
- 3.5 数据防爬层设计与实现50-56
- 3.5.1 客户端设计与实现51-54
- 3.5.2 服务端设计与实现54-56
- 3.6 小结56-58
- 第四章 应用与效果分析58-68
- 4.1 系统运行环境58-61
- 4.1.1 支撑软件环境59
- 4.1.2 系统逻辑架构59-61
- 4.2 系统应用61-66
- 4.2.1 后台管理61-64
- 4.2.2 数据分析64-65
- 4.2.3 应用效果65-66
- 4.3 小结66-68
- 第五章 结论与展望68-70
- 5.1 结论68
- 5.2 展望68-70
- 参考文献70-74
- 致谢74-76
- 个人简历、在学期间发表的论文与研究成果76
【相似文献】
中国期刊全文数据库 前10条
1 阎巧,谢维信;异常检测技术的研究与发展[J];西安电子科技大学学报;2002年01期
2 田琳;黄文海;;无线局域网基于静态马尔可夫链的异常检测技术研究[J];科技信息(学术研究);2008年24期
3 苗强;周兴社;倪红波;张桂英;周珊丹;;基于行为规律的异常检测技术研究[J];计算机工程与应用;2010年15期
4 崔锡鑫;苏伟;刘颖;;基于熵的流量分析和异常检测技术研究与实现[J];计算机技术与发展;2013年05期
5 金文进;杨武;;异常检测技术研究综述[J];软件导刊;2008年01期
6 安景琦,刘贵全,钱权;一种基于隐Markov模型的异常检测技术[J];计算机应用;2005年08期
7 胡亮;金刚;于漫;任斐;任维武;;基于异常检测的入侵检测技术[J];吉林大学学报(理学版);2009年06期
8 高旭麟;;视频监控图像异常检测技术在安防行业中的应用[J];中国公共安全;2013年12期
9 周彬彬;崔宝江;杨义先;;基于系统行为分析的异常检测技术研究[J];电信科学;2009年02期
10 张剑,龚俭;一种基于模糊综合评判的入侵异常检测方法[J];计算机研究与发展;2003年06期
中国重要会议论文全文数据库 前1条
1 李涵;;一种改进的聚类方法在异常检测中的应用[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
中国重要报纸全文数据库 前2条
1 那罡;检测异常网络 阻挡DoS攻击[N];中国计算机报;2008年
2 ;千兆网络的安全防护神[N];中国计算机报;2003年
中国博士学位论文全文数据库 前4条
1 于赫;网联汽车信息安全问题及CAN总线异常检测技术研究[D];吉林大学;2016年
2 林果园;基于主机行为的异常检测技术研究[D];南京大学;2011年
3 吴志忠;移动设备及网络的异常检测方法研究[D];中国科学技术大学;2013年
4 夏正敏;基于分形的网络流量分析及异常检测技术研究[D];上海交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 林旭;基于WEB访问日志的异常检测技术研究[D];中国海洋大学;2015年
2 任宏伟;基于异常检测技术的数据防爬系统设计与应用[D];中国科学院大学(工程管理与信息技术学院);2016年
3 杨斌;基于聚类的异常检测技术的研究[D];中南大学;2008年
4 朱义鑫;基于网络的隐马尔可夫异常检测技术研究[D];新疆大学;2005年
5 李斌;基于正常简档聚类的自适应异常检测技术研究[D];中南大学;2009年
6 杨宇舟;基于特征提取的聚类异常检测技术的研究与实现[D];电子科技大学;2012年
7 王冬阳;面向云计算的异常检测技术的研究与实现[D];上海交通大学;2013年
8 宋歌;基于程序行为的异常检测技术研究[D];西安电子科技大学;2002年
9 乜聚虎;智能手机异常检测技术研究与实现[D];中国科学技术大学;2011年
10 吕云洁;基于数据流的异常检测技术及应用的研究[D];华北电力大学(河北);2008年
,本文编号:1058648
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1058648.html