基于Hadoop的IPv6网络安全日志大数据的聚类分析与应用
发布时间:2021-04-25 14:38
随着下一代互联网技术IPv6协议的不断成熟和推广,支持IPv6访问的Web网站逐渐成为了主流。Web网站发生的各种各样的事件都会产生相应的网络安全日志,记录着用户的访问行为。实现IPv6网络安全日志的有效分析,深度挖掘其中有价值的潜在信息,不仅可以了解用户的访问行为习惯,还可以发现隐藏的Web攻击行为,从而维护Web服务器系统的安全。进入大数据时代以来,巨大的网络用户流量产生的IPv6网络安全日志数据早已达到了TB或PB甚至以上的数据量级别。面对如此海量的IPv6网络安全日志大数据,单台主机集中式的日志分析技术已经无法满足数据存储和计算的需求。针对这一问题,本文利用Hadoop分布式平台设计并实现一种基于Hadoop的IPv6网络安全日志分析系统。该系统旨在完成对大规模Web日志的高效存储管理和快速挖掘分析,尽可能正确区分正常访问和Web攻击,提高Web网站的安全性。本文工作的创新点主要包括:(1)鉴于单机集中式K-means算法无法有效地处理海量数据,提出一种基于MapReduce的高效K-means改进算法。先借助最大最小距离法和轮廓系数优化K-means算法初始聚类中心的选择,再...
【文章来源】:兰州交通大学甘肃省
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.1.1 课题来源
1.1.2 研究背景与意义
1.2 国内外研究现状
1.2.1 日志分析研究现状
1.2.2 基于分布式的日志分析研究现状
1.3 论文主要内容
1.4 论文的结构安排
2 相关技术
2.1 Hadoop相关技术
2.1.1 HDFS
2.1.2 MapReduce
2.2 聚类分析
2.2.1 聚类分析
2.2.2 聚类常用评价指标
2.3 Web安全日志挖掘
2.4 本章小结
3 基于MapReduce的高效K-means改进算法
3.1 传统K-means算法
3.1.1 K-means算法基础
3.1.2 常用距离度量方法
3.1.3 K-means算法的不足
3.2 基于MapReduce的高效K-means改进算法
3.2.1 传统K-means算法的改进
3.2.2 改进K-means算法的并行化
3.3 改进K-means算法的对比实验
3.4 本章小结
4 系统设计与实现
4.1 系统总体设计
4.1.1 系统总体架构
4.1.2 系统工作流程
4.2 日志收集
4.3 日志预处理
4.3.1 数据清洗
4.3.2 特征值提取
4.3.3 特征值量化
4.4 日志分析
4.4.1 统计分析
4.4.2 聚类分析
4.5 结果展示
4.6 本章小结
5 实验与结果分析
5.1 Hadoop集群部署
5.1.1 集群拓扑
5.1.2 Hadoop集群搭建
5.2 实验数据集准备
5.3 算法在Hadoop集群中的性能测试
5.3.1 加速实验
5.3.2 扩展实验
5.3.3 规模实验
5.4 系统性能评估
5.4.1 统计分析实验
5.4.2 聚类分析实验
5.5 本章小结
6 总结与展望
6.1 总结
6.2 展望
致谢
参考文献
攻读学位期间的研究成果
【参考文献】:
期刊论文
[1]基于Hadoop的Web日志分析系统的设计[J]. 何璇,马佳琳. 软件工程. 2019(02)
[2]基于抽样和最大最小距离法的并行K-means聚类算法[J]. 刘燕. 智能计算机与应用. 2018(06)
[3]IPv6规模部署:赢得互联网新时代发展先机[J]. 杨洁. 中国教育网络. 2018(01)
[4]基于MapReduce框架下K-means的改进算法[J]. 阴爱英,吴运兵,朱敏琛,张莹. 计算机应用研究. 2018(08)
[5]基于离散量优化初始聚类中心的k-means算法[J]. 刘美玲,黄名选,汤卫东. 计算机工程与科学. 2017(06)
[6]基于平均差异度优选初始聚类中心的改进K-均值聚类算法[J]. 李武,赵娇燕,严太山. 控制与决策. 2017(04)
[7]基于Hadoop平台的K-means聚类算法优化研究[J]. 卢胜宇,王静宇,张晓琳,高俊峰. 内蒙古科技大学学报. 2016(03)
[8]基于Hadoop的PSO-KM聚类算法的并行实现[J]. 马汉达,杨丽娜. 信息技术. 2015(07)
[9]大数据k-Means聚类挖掘优化算法[J]. 宋旭东,朱文辉,邱占芝. 大连交通大学学报. 2015(03)
[10]基于Apache Flume的分布式日志收集系统设计与实现[J]. 郝璇. 软件导刊. 2014(07)
硕士论文
[1]基于WEB日志的入侵检测算法研究[D]. 高阳.北京邮电大学 2018
[2]基于Web日志的分布式并行数据挖掘算法研究[D]. 郭沛松.电子科技大学 2017
[3]基于Hadoop平台的分布式web日志分析系统的研究与实现[D]. 曾新励.西南石油大学 2017
[4]基于Hadoop云计算平台的K-Means聚类算法研究[D]. 刘洋.哈尔滨理工大学 2017
[5]基于Web应用的日志采集与分析系统的设计与实现[D]. 于静.北京交通大学 2016
[6]基于Hadoop的改进Apriori算法研究及应用[D]. 陈顺生.安徽理工大学 2016
[7]基于Hadoop平台的Web日志聚类分析算法研究[D]. 刘立坤.西北大学 2016
[8]基于MapReduce的聚类算法并行化研究[D]. 刘德超.华北电力大学 2016
[9]基于MapReduce的k-means聚类算法并行化研究[D]. 张依.中央民族大学 2015
[10]基于HADOOP云计算平台的聚类算法研究[D]. 严正飞.南京大学 2014
本文编号:3159562
【文章来源】:兰州交通大学甘肃省
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.1.1 课题来源
1.1.2 研究背景与意义
1.2 国内外研究现状
1.2.1 日志分析研究现状
1.2.2 基于分布式的日志分析研究现状
1.3 论文主要内容
1.4 论文的结构安排
2 相关技术
2.1 Hadoop相关技术
2.1.1 HDFS
2.1.2 MapReduce
2.2 聚类分析
2.2.1 聚类分析
2.2.2 聚类常用评价指标
2.3 Web安全日志挖掘
2.4 本章小结
3 基于MapReduce的高效K-means改进算法
3.1 传统K-means算法
3.1.1 K-means算法基础
3.1.2 常用距离度量方法
3.1.3 K-means算法的不足
3.2 基于MapReduce的高效K-means改进算法
3.2.1 传统K-means算法的改进
3.2.2 改进K-means算法的并行化
3.3 改进K-means算法的对比实验
3.4 本章小结
4 系统设计与实现
4.1 系统总体设计
4.1.1 系统总体架构
4.1.2 系统工作流程
4.2 日志收集
4.3 日志预处理
4.3.1 数据清洗
4.3.2 特征值提取
4.3.3 特征值量化
4.4 日志分析
4.4.1 统计分析
4.4.2 聚类分析
4.5 结果展示
4.6 本章小结
5 实验与结果分析
5.1 Hadoop集群部署
5.1.1 集群拓扑
5.1.2 Hadoop集群搭建
5.2 实验数据集准备
5.3 算法在Hadoop集群中的性能测试
5.3.1 加速实验
5.3.2 扩展实验
5.3.3 规模实验
5.4 系统性能评估
5.4.1 统计分析实验
5.4.2 聚类分析实验
5.5 本章小结
6 总结与展望
6.1 总结
6.2 展望
致谢
参考文献
攻读学位期间的研究成果
【参考文献】:
期刊论文
[1]基于Hadoop的Web日志分析系统的设计[J]. 何璇,马佳琳. 软件工程. 2019(02)
[2]基于抽样和最大最小距离法的并行K-means聚类算法[J]. 刘燕. 智能计算机与应用. 2018(06)
[3]IPv6规模部署:赢得互联网新时代发展先机[J]. 杨洁. 中国教育网络. 2018(01)
[4]基于MapReduce框架下K-means的改进算法[J]. 阴爱英,吴运兵,朱敏琛,张莹. 计算机应用研究. 2018(08)
[5]基于离散量优化初始聚类中心的k-means算法[J]. 刘美玲,黄名选,汤卫东. 计算机工程与科学. 2017(06)
[6]基于平均差异度优选初始聚类中心的改进K-均值聚类算法[J]. 李武,赵娇燕,严太山. 控制与决策. 2017(04)
[7]基于Hadoop平台的K-means聚类算法优化研究[J]. 卢胜宇,王静宇,张晓琳,高俊峰. 内蒙古科技大学学报. 2016(03)
[8]基于Hadoop的PSO-KM聚类算法的并行实现[J]. 马汉达,杨丽娜. 信息技术. 2015(07)
[9]大数据k-Means聚类挖掘优化算法[J]. 宋旭东,朱文辉,邱占芝. 大连交通大学学报. 2015(03)
[10]基于Apache Flume的分布式日志收集系统设计与实现[J]. 郝璇. 软件导刊. 2014(07)
硕士论文
[1]基于WEB日志的入侵检测算法研究[D]. 高阳.北京邮电大学 2018
[2]基于Web日志的分布式并行数据挖掘算法研究[D]. 郭沛松.电子科技大学 2017
[3]基于Hadoop平台的分布式web日志分析系统的研究与实现[D]. 曾新励.西南石油大学 2017
[4]基于Hadoop云计算平台的K-Means聚类算法研究[D]. 刘洋.哈尔滨理工大学 2017
[5]基于Web应用的日志采集与分析系统的设计与实现[D]. 于静.北京交通大学 2016
[6]基于Hadoop的改进Apriori算法研究及应用[D]. 陈顺生.安徽理工大学 2016
[7]基于Hadoop平台的Web日志聚类分析算法研究[D]. 刘立坤.西北大学 2016
[8]基于MapReduce的聚类算法并行化研究[D]. 刘德超.华北电力大学 2016
[9]基于MapReduce的k-means聚类算法并行化研究[D]. 张依.中央民族大学 2015
[10]基于HADOOP云计算平台的聚类算法研究[D]. 严正飞.南京大学 2014
本文编号:3159562
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3159562.html