当前位置:主页 > 管理论文 > 移动网络论文 >

基于海量WEB日志的网络恶意行为分析系统设计与实现

发布时间:2017-08-25 22:00

  本文关键词:基于海量WEB日志的网络恶意行为分析系统设计与实现


  更多相关文章: WEB日志 数据挖掘 恶意行为 URL检测 Spark


【摘要】:随着计算机技术和Internet的飞速发展,各种基于WEB的网络应用层出不穷,WEB用户数量也迅猛膨胀。然而,各种各样的WEB应用给人们的学习、工作和生活带来方便的同时也将人们的隐私和生活暴露在互联网上。由于WEB应用的广泛性,木马、僵尸网络、APT活动等常常利用其实施网络渗透、入侵与控制等恶意行为,或者实施大范围的DDOS攻击,严重威胁网络用户的信息和财产安全。如何从海量的WEB日志中分析发现可疑的恶意网络行为具有重要意义。目前来看,如何构建一个海量WEB日志分析挖掘系统并真正应用到网络安全实践中,面临如下挑战。首先,WEB日志数据项复杂,不同的WEB站点记录的WEB日志在格式、字段、规范性等方面存在较大差异,不利于后续的统一分析挖掘。其次,WEB日志记录中一个很重要的数据项是URL,即访问WEB站点的路径。如何设计高效的URL检测模块,准确并及时的发现恶意链接、SQL注入及XSS跨站脚本的存在,是值得深入研究的问题。此外,对于海量日志的处理来讲,分析挖掘才是最终面临的问题。如何构建实用的海量数据分析平台,并设计合理的挖掘算法来发现可疑网络恶意行为,是要解决的关键问题。本文设计并实现了一套完整的WEB日志挖掘系统用于真实网络环境中的恶意行为发现。首先与某网络内容提供商(ICP)合作,获取ICP的海量WEB日志;在此基础上,设计并实现一套原型系统,对藏匿于海量WEB日志中的恶意用户及恶意行为进行分析挖掘。已完成的主要工作包括:(1)在WEB日志的差异化处理方面,设计并实现WEB日志预处理模块,去除错误冗余数据,并将日志格式规范化,增强了系统通用性。WEB日志预处理模块主要分为数据清洗、用户识别及会话识别三方面。(2)在URL检测方面,设计并实现URL检测模块。利用开源项目libinjection对SQL注入及XSS跨站脚本进行检测,同时也将利用已收集的公开URL数据集对恶意链接进行扫描。(3)在海量日志的分析挖掘方面,基于Spark高性能数据分析平台对会话日志进行会话测量、统计和关联挖掘,发现隐藏其中的恶意行为。首先测量同一用户相邻WEB日志记录间隔时间分布,从而确定区分相同用户不同会话的超时时间。随后将分别以用户、客户端IP、客户端所在B段或C段为统计对象,做一系列统计分析。找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系。最终综合计算判定恶意用户及恶意行为。
【关键词】:WEB日志 数据挖掘 恶意行为 URL检测 Spark
【学位授予单位】:中国科学院大学(工程管理与信息技术学院)
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.08
【目录】:
  • 摘要5-7
  • Abstract7-11
  • 第一章 绪论11-21
  • 1.1 研究背景与意义11-12
  • 1.2 本论文的研究进展12-18
  • 1.2.1 WEB日志预处理13-14
  • 1.2.2 WEB日志中异常URL检测14-16
  • 1.2.3 WEB日志恶意行为分析16-18
  • 1.3 本文主要研究内容18-21
  • 第二章 系统相关技术研究21-31
  • 2.1 WEB日志预处理研究21-23
  • 2.1.1 数据清洗21-22
  • 2.1.2 用户识别22
  • 2.1.3 会话识别22-23
  • 2.2 WEB日志中异常URL检测研究23-26
  • 2.2.1 恶意链接23-24
  • 2.2.2 SQL注入与XSS跨站脚本24
  • 2.2.3 URL编码混淆技术24-25
  • 2.2.4 公开URL数据集25-26
  • 2.3 WEB用户恶意行为发现26-30
  • 2.3.1 Spark是什么?26
  • 2.3.2 Spark主要特点26-29
  • 2.3.3 Spark设计思想29
  • 2.3.4 Spark运行原理29-30
  • 2.4 本章小结30-31
  • 第三章 系统的需求分析与总体架构31-43
  • 3.1 系统的需求分析31-32
  • 3.1.1 功能需求31-32
  • 3.1.2 性能指标32
  • 3.2 系统的总体设计32-39
  • 3.2.1 设计原理32-33
  • 3.2.2 系统结构与工作原理33-35
  • 3.2.3 系统模块35-39
  • 3.3 部署环境设计39-41
  • 3.4 本章小结41-43
  • 第四章 系统关键模块的详细设计与实现43-57
  • 4.1 数据预处理子系统中模块的详细设计与实现43-49
  • 4.1.1 数据预处理子系统中模块的设计需求43-44
  • 4.1.2 数据预处理子系统中模块的设计方案44-46
  • 4.1.3 数据预处理子系统中模块的具体实现46-49
  • 4.2 URL检测子系统中模块的详细设计与实现49-52
  • 4.2.1 URL检测子系统中模块的设计需求49
  • 4.2.2 URL检测子系统中模块的设计方案49-50
  • 4.2.3 URL检测子系统中模块的具体实现50-52
  • 4.3 用户行为分析子系统中模块的详细设计与实现52-56
  • 4.3.1 用户行为分析子系统中模块的设计需求52-53
  • 4.3.2 用户行为分析子系统中模块的设计方案53
  • 4.3.3 用户行为分析子系统中模块的具体实现53-56
  • 4.5 本章小结56-57
  • 第五章 系统测试与结果分析57-65
  • 5.1 系统运行环境57-58
  • 5.2 系统测试及分析结果58-64
  • 5.3 本章小结64-65
  • 第六章 结论与展望65-67
  • 6.1 论文工作总结65-66
  • 6.2 未来工作展望66-67
  • 参考文献67-69
  • 致谢69-71
  • 个人简历、在学期间发表的论文与研究成果71

【参考文献】

中国硕士学位论文全文数据库 前1条

1 陈文臣;Web日志挖掘技术的研究与应用[D];中国科学院研究生院(计算技术研究所);2005年



本文编号:738342

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/738342.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6524e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com